பெரிய மொழி மாதிரிகள்: நீங்கள் தெரிந்து கொள்ள வேண்டிய அனைத்தும்

பொருளடக்கம்[மறை][காட்டு]

பெரிய மொழி மாதிரி என்றால் என்ன?
எல்.எல்.எம்.க்கள் எவ்வாறு பயிற்சியளிக்கப்படுகின்றன?+-
- டிரான்ஸ்ஃபார்மர் கட்டிடக்கலையுடன் முன் பயிற்சி
- நன்றாக மெருகேற்றுவது
பெரிய மொழி மாதிரிகளின் வரம்புகள்+-
தீர்மானம்

செயற்கை நுண்ணறிவின் ஒரு உன்னதமான பிரச்சனை மனித மொழியைப் புரிந்துகொள்ளக்கூடிய ஒரு இயந்திரத்தைப் பின்தொடர்வது.

எடுத்துக்காட்டாக, உங்களுக்குப் பிடித்த தேடுபொறியில் “அருகிலுள்ள இத்தாலிய உணவகங்களை” தேடும் போது, ஒரு அல்காரிதம் உங்கள் வினவலில் உள்ள ஒவ்வொரு வார்த்தையையும் ஆராய்ந்து தொடர்புடைய முடிவுகளை வெளியிட வேண்டும். ஒரு ஒழுக்கமான மொழிபெயர்ப்பு பயன்பாடு ஆங்கிலத்தில் ஒரு குறிப்பிட்ட வார்த்தையின் சூழலைப் புரிந்து கொள்ள வேண்டும் மற்றும் மொழிகளுக்கு இடையிலான இலக்கண வேறுபாடுகளை எப்படியாவது கணக்கிட வேண்டும்.

இந்த அனைத்து பணிகளும் மற்றும் பலவும் கணினி அறிவியலின் துணைத் துறையின் கீழ் வருகின்றன இயற்கை மொழி செயலாக்கம் அல்லது என்.எல்.பி. NLP இன் முன்னேற்றங்கள், Amazon's Alexa போன்ற மெய்நிகர் உதவியாளர்களிடமிருந்து தீங்கிழைக்கும் மின்னஞ்சலைக் கண்டறியும் ஸ்பேம் வடிப்பான்கள் வரை பரந்த அளவிலான நடைமுறை பயன்பாடுகளுக்கு வழிவகுத்தது.

NLP இன் மிகச் சமீபத்திய முன்னேற்றம் ஒரு யோசனை பெரிய மொழி மாதிரி அல்லது எல்.எல்.எம். GPT-3 போன்ற LLMகள் மிகவும் சக்திவாய்ந்ததாகிவிட்டன, அவை கிட்டத்தட்ட எந்த NLP பணியிலும் அல்லது பயன்பாட்டு விஷயத்திலும் வெற்றியடைகின்றன.

இந்தக் கட்டுரையில், எல்எல்எம்கள் என்றால் என்ன, இந்த மாதிரிகள் எப்படிப் பயிற்றுவிக்கப்படுகின்றன, தற்போதைய வரம்புகள் ஆகியவற்றைப் பார்ப்போம்.

பெரிய மொழி மாதிரி என்றால் என்ன?

அதன் மையத்தில், ஒரு மொழி மாதிரி என்பது சொற்களின் வரிசை எவ்வளவு சரியான வாக்கியமாக இருக்கும் என்பதை அறியும் வழிமுறையாகும்.

சில நூறு புத்தகங்களில் பயிற்றுவிக்கப்பட்ட மிக எளிமையான மொழி மாதிரி, "வீட்டிற்குச் சென்றான்" என்பதை விட "அவர் வீட்டிற்குச் சென்றார்" என்று சொல்ல முடியும்.

ஒப்பீட்டளவில் சிறிய தரவுத்தொகுப்பை இணையத்திலிருந்து அகற்றப்பட்ட ஒரு பெரிய தரவுத்தொகுப்புடன் மாற்றினால், நாம் ஒரு யோசனையை அணுக ஆரம்பிக்கிறோம். பெரிய மொழி மாதிரி.

பயன்படுத்தி நரம்பியல் வலையமைப்புகள், ஆராய்ச்சியாளர்கள் எல்.எல்.எம்களுக்கு அதிக அளவு உரைத் தரவுகளைப் பயிற்றுவிக்க முடியும். மாடல் பார்த்த உரைத் தரவுகளின் அளவு காரணமாக, எல்எல்எம் ஒரு வரிசையில் அடுத்த வார்த்தையைக் கணிப்பதில் மிகவும் சிறப்பாகிறது.

மாடல் மிகவும் அதிநவீனமானது, இது நிறைய NLP பணிகளைச் செய்ய முடியும். இந்த பணிகளில் உரையை சுருக்கி, புதுமையான உள்ளடக்கத்தை உருவாக்குதல் மற்றும் மனிதனைப் போன்ற உரையாடலை உருவகப்படுத்துதல் ஆகியவை அடங்கும்.

பெரிய மொழி மாதிரிகள் அறிவுறுத்தல்களின் அடிப்படையில் புதிய உள்ளடக்கத்தை உருவாக்க முடியும்

எடுத்துக்காட்டாக, மிகவும் பிரபலமான GPT-3 மொழி மாதிரியானது 175 பில்லியனுக்கும் அதிகமான அளவுருக்களுடன் பயிற்றுவிக்கப்பட்டு, இதுவரையில் மிகவும் மேம்பட்ட மொழி மாதிரியாகக் கருதப்படுகிறது.

இது வேலை செய்யும் குறியீட்டை உருவாக்கவும், முழு கட்டுரைகளையும் எழுதவும், எந்த தலைப்பைப் பற்றிய கேள்விகளுக்கு பதிலளிக்கவும் முடியும்.

எல்.எல்.எம்.க்கள் எவ்வாறு பயிற்சியளிக்கப்படுகின்றன?

எல்எல்எம்கள் அவர்களின் பயிற்சித் தரவின் அளவிற்கு அவர்களின் சக்திக்கு நிறைய கடன்பட்டுள்ளன என்பதை நாங்கள் சுருக்கமாகத் தொட்டுள்ளோம். நாம் அவற்றை "பெரிய" மொழி மாதிரிகள் என்று அழைப்பதற்கு ஒரு காரணம் இருக்கிறது.

டிரான்ஸ்ஃபார்மர் கட்டிடக்கலையுடன் முன் பயிற்சி

பயிற்சிக்கு முந்தைய கட்டத்தில், ஒரு மொழியின் பொதுவான அமைப்பு மற்றும் விதிகளை அறிய, ஏற்கனவே உள்ள உரை தரவுகளுக்கு LLMகள் அறிமுகப்படுத்தப்படுகின்றன.

கடந்த சில ஆண்டுகளில், பொது இணையத்தின் கணிசமான பகுதியை உள்ளடக்கிய தரவுத்தொகுப்புகளில் LLMகள் முன் பயிற்சி பெற்றுள்ளன. எடுத்துக்காட்டாக, GPT-3 இன் மொழி மாதிரியானது தரவின் மீது பயிற்சியளிக்கப்பட்டது பொதுவான வலம் தரவுத்தொகுப்பு, 50 மில்லியனுக்கும் அதிகமான டொமைன்களில் இருந்து ஸ்கிராப் செய்யப்பட்ட இணைய இடுகைகள், இணையப் பக்கங்கள் மற்றும் டிஜிட்டல் புத்தகங்களின் கார்பஸ்.

பாரிய தரவுத்தொகுப்பு பின்னர் ஒரு மாதிரியாக அளிக்கப்படுகிறது மின்மாற்றி. மின்மாற்றிகள் ஒரு வகை ஆழமான நரம்பு வலையமைப்பு இது தொடர்ச்சியான தரவுகளுக்கு சிறப்பாகச் செயல்படுகிறது.

பெரிய மொழி மாதிரிகள் மின்மாற்றிகளைப் பயன்படுத்துகின்றன

மின்மாற்றிகள் ஒரு பயன்படுத்துகின்றன குறியாக்கி-குறிவிலக்கி கட்டமைப்பு உள்ளீடு மற்றும் வெளியீட்டைக் கையாளுவதற்கு. முக்கியமாக, மின்மாற்றியில் இரண்டு நரம்பியல் நெட்வொர்க்குகள் உள்ளன: ஒரு குறியாக்கி மற்றும் குறிவிலக்கி. குறியாக்கி உள்ளீட்டு உரையின் பொருளைப் பிரித்தெடுத்து அதை வெக்டராக சேமிக்க முடியும். குறிவிலக்கி பின்னர் திசையனைப் பெற்று உரையின் விளக்கத்தை உருவாக்குகிறது.

இருப்பினும், மின்மாற்றி கட்டமைப்பை மிகவும் நன்றாக வேலை செய்ய அனுமதித்த முக்கிய கருத்து ஒரு சேர்ப்பதாகும் சுய கவனம் பொறிமுறை. சுய-கவனம் என்ற கருத்து, கொடுக்கப்பட்ட வாக்கியத்தில் உள்ள மிக முக்கியமான சொற்களுக்கு கவனம் செலுத்த மாதிரியை அனுமதித்தது. பொறிமுறையானது தொடர்ச்சியாக வெகு தொலைவில் இருக்கும் சொற்களுக்கு இடையிலான எடையைக் கூட கருதுகிறது.

சுய கவனத்தின் மற்றொரு நன்மை என்னவென்றால், செயல்முறை இணையாக இருக்க முடியும். வரிசையான தரவை வரிசையாகச் செயலாக்குவதற்குப் பதிலாக, மின்மாற்றி மாதிரிகள் அனைத்து உள்ளீடுகளையும் ஒரே நேரத்தில் செயலாக்க முடியும். இது மற்ற முறைகளுடன் ஒப்பிடுகையில் ஒப்பீட்டளவில் விரைவாக பெரிய அளவிலான தரவைப் பயிற்றுவிக்க மின்மாற்றிகளை செயல்படுத்துகிறது.

நன்றாக மெருகேற்றுவது

பயிற்சிக்கு முந்தைய நிலைக்குப் பிறகு, அடிப்படை எல்எல்எம் பயிற்சிக்கான புதிய உரையை அறிமுகப்படுத்த நீங்கள் தேர்வு செய்யலாம். இந்த செயல்முறையை நாங்கள் அழைக்கிறோம் நன்றாக மெருகேற்றுவது மேலும் ஒரு குறிப்பிட்ட பணியில் LLM இன் வெளியீட்டை மேலும் மேம்படுத்த பெரும்பாலும் பயன்படுத்தப்படுகிறது.

எடுத்துக்காட்டாக, உங்கள் ட்விட்டர் கணக்கிற்கான உள்ளடக்கத்தை உருவாக்க நீங்கள் LLM ஐப் பயன்படுத்த விரும்பலாம். விரும்பிய வெளியீட்டைப் பற்றிய யோசனையை வழங்க, உங்கள் முந்தைய ட்வீட்களின் பல எடுத்துக்காட்டுகளுடன் மாதிரியை நாங்கள் வழங்க முடியும்.

ஃபைன்-ட்யூனிங்கில் சில வேறுபட்ட வகைகள் உள்ளன.

பெரிய மொழி மாதிரிகள் சில ஷாட் கற்றல் திறன் கொண்டவை

சில ஷாட் கற்றல் மொழி மாதிரியானது ஒரே மாதிரியான வெளியீட்டை எவ்வாறு உருவாக்குவது என்பதைக் கண்டுபிடிக்கும் என்ற எதிர்பார்ப்புடன் ஒரு மாதிரிக்கு சிறிய எண்ணிக்கையிலான எடுத்துக்காட்டுகளை வழங்கும் செயல்முறையைக் குறிக்கிறது. ஒரு முறை கற்றல் ஒரே ஒரு உதாரணம் மட்டும் வழங்கப்படுவதைத் தவிர, ஒரே மாதிரியான செயல்முறையாகும்.

பெரிய மொழி மாதிரிகளின் வரம்புகள்

GPT-3 போன்ற LLMகள், நன்றாகச் சரிப்படுத்தாமல் கூட அதிக எண்ணிக்கையிலான பயன்பாட்டு நிகழ்வுகளைச் செய்யும் திறன் கொண்டவை. இருப்பினும், இந்த மாதிரிகள் இன்னும் அவற்றின் சொந்த வரம்புகளுடன் வருகின்றன.

உலகத்தைப் பற்றிய சொற்பொருள் புரிதல் இல்லாமை

மேற்பரப்பில், எல்எல்எம்கள் நுண்ணறிவைக் காட்டுகின்றன. இருப்பினும், இந்த மாதிரிகள் அதே வழியில் செயல்படாது மனித மூளை செய்யும். எல்எல்எம்கள் வெளியீட்டை உருவாக்க புள்ளிவிவரக் கணக்கீடுகளை மட்டுமே நம்பியுள்ளன. அவர்கள் சொந்தமாக யோசனைகள் மற்றும் கருத்துகளை நியாயப்படுத்தும் திறன் இல்லை.

இதன் காரணமாக, ஒரு எல்எல்எம் அர்த்தமற்ற பதில்களை வெளியிட முடியும், ஏனெனில் அந்த வார்த்தைகள் குறிப்பிட்ட வரிசையில் வைக்கப்படும்போது "சரியானது" அல்லது "புள்ளிவிவரப்படி சாத்தியம்" என்று தோன்றுகிறது.

மாயத்தோற்றம்

GPT-3 போன்ற மாதிரிகளும் தவறான பதில்களால் பாதிக்கப்படுகின்றன. எல்எல்எம்கள் எனப்படும் ஒரு நிகழ்வால் பாதிக்கப்படலாம் மாயை மாதிரிகள் எந்த ஒரு விழிப்புணர்வும் இல்லாமல் உண்மையில் தவறான பதிலை வெளியிடுகின்றன, பதில் உண்மையில் எந்த அடிப்படையும் இல்லை.

எடுத்துக்காட்டாக, சமீபத்திய ஐபோனில் ஸ்டீவ் ஜாப்ஸின் எண்ணங்களை விளக்க ஒரு பயனர் மாடலைக் கேட்கலாம். மாதிரியானது அதன் பயிற்சித் தரவின் அடிப்படையில் மெல்லிய காற்றிலிருந்து மேற்கோளை உருவாக்கலாம்.

சார்பு மற்றும் வரையறுக்கப்பட்ட அறிவு

பல அல்காரிதம்களைப் போலவே, பெரிய மொழி மாதிரிகளும் பயிற்சித் தரவில் இருக்கும் சார்புகளைப் பெறுவதற்கான வாய்ப்புகள் உள்ளன. தகவலைப் பெற LLMகளை நாம் அதிகம் நம்பத் தொடங்கும் போது, இந்த மாதிரிகளை உருவாக்குபவர்கள் பக்கச்சார்பான பதில்களின் தீங்கு விளைவிக்கும் விளைவுகளைத் தணிக்க வழிகளைக் கண்டறிய வேண்டும்.

இதேபோன்ற திறனில், மாடலின் பயிற்சித் தரவின் குருட்டுப் புள்ளிகளும் மாடலுக்குத் தடையாக இருக்கும். தற்போது, பெரிய மொழி மாதிரிகள் பயிற்சி பெற பல மாதங்கள் ஆகும். இந்த மாதிரிகள் வரம்பிற்குட்பட்ட தரவுத்தொகுப்புகளையும் நம்பியுள்ளன. இதனால்தான் ChatGPT ஆனது 2021க்கு முந்தைய நிகழ்வுகள் பற்றிய குறைந்த அறிவை மட்டுமே கொண்டுள்ளது.

தீர்மானம்

பெரிய மொழி மாதிரிகள் தொழில்நுட்பம் மற்றும் பொதுவாக நமது உலகத்துடன் நாம் எவ்வாறு தொடர்பு கொள்கிறோம் என்பதை உண்மையாக மாற்றும் ஆற்றலைக் கொண்டுள்ளது.

இணையத்தில் கிடைக்கும் பரந்த அளவிலான தரவு, மொழியின் சிக்கல்களை மாதிரியாக்க ஆராய்ச்சியாளர்களுக்கு ஒரு வழியை அளித்துள்ளது. இருப்பினும், வழியில், இந்த மொழி மாதிரிகள் உலகத்தைப் பற்றிய மனிதனைப் போன்ற புரிதலைப் பெற்றதாகத் தெரிகிறது.

துல்லியமான வெளியீட்டை வழங்குவதற்கு இந்த மொழி மாதிரிகளை பொதுமக்கள் நம்பத் தொடங்குவதால், ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் ஏற்கனவே பாதுகாப்புச் சட்டங்களைச் சேர்ப்பதற்கான வழிகளைக் கண்டுபிடித்துள்ளனர், இதனால் தொழில்நுட்பம் நெறிமுறையாக இருக்கும்.

எல்எல்எம்களின் எதிர்காலம் என்ன என்று நீங்கள் நினைக்கிறீர்கள்?

பெரிய மொழி மாதிரிகள்: நீங்கள் தெரிந்து கொள்ள வேண்டிய அனைத்தும்

பெரிய மொழி மாதிரி என்றால் என்ன?

எல்.எல்.எம்.க்கள் எவ்வாறு பயிற்சியளிக்கப்படுகின்றன?