ChatGPT இன் முழு பயிற்சி செயல்முறையும் விளக்கப்பட்டுள்ளது

பொருளடக்கம்[மறை][காட்டு]

உருவாக்கும் முன் பயிற்சி+-
- சீரமைப்பு பிரச்சினை
கண்காணிக்கப்படும் ஃபைன்-டியூனிங்+-
- மேற்பார்வை வரம்புகள்: விநியோக மாற்றம்
விருப்பங்களின் அடிப்படையில், வெகுமதி கற்றல்
எதிர்காலம் என்ன?

ChatGPT என்பது ஒரு குறிப்பிடத்தக்க செயற்கை நுண்ணறிவு மொழி மாதிரி. நாம் அனைவரும் பல்வேறு பணிகளில் நமக்கு உதவ இதைப் பயன்படுத்துகிறோம்.

மனிதனைப் போலத் தோன்றும் பதில்களை உருவாக்க அது எவ்வாறு பயிற்சியளிக்கப்பட்டது என்று நீங்கள் எப்போதாவது கேள்வி எழுப்பியுள்ளீர்களா? இந்த கட்டுரையில், ChatGPT இன் பயிற்சியை ஆராய்வோம்.

அது எவ்வாறு மிகச் சிறந்த ஒன்றாக உருவானது என்பதை விளக்குவோம் மொழி மாதிரிகள். ChatGPT இன் புதிரான உலகத்தை நாங்கள் ஆராயும்போது, கண்டுபிடிப்புப் பயணத்தில் வாருங்கள்.

பயிற்சியின் கண்ணோட்டம்

ChatGPT என்பது இயற்கையான மொழி செயலாக்க மாதிரி.

ChatGPT மூலம், நாம் ஊடாடும் உரையாடல்களிலும் மனிதர்களைப் போன்ற விவாதங்களிலும் ஈடுபடலாம். இது போன்ற ஒரு அணுகுமுறையைப் பயன்படுத்துகிறது GPTக்கு அறிவுறுத்தவும், இது ஒரு அதிநவீன மொழி மாதிரி. இது ChatGPTக்கு சற்று முன்பு உருவாக்கப்பட்டது.

இது மிகவும் ஈர்க்கும் முறையைப் பயன்படுத்துகிறது. இது இயற்கையான பயனர் தொடர்புகளை செயல்படுத்துகிறது. எனவே, சாட்போட்கள் மற்றும் மெய்நிகர் உதவியாளர்கள் போன்ற பல்வேறு பயன்பாடுகளுக்கு இது சரியான கருவியாகும்.

ChatGPT இன் பயிற்சி செயல்முறை பல-நிலை செயல்முறையாகும். ஜெனரேட்டிவ் ப்ரீட்ரெய்னிங் என்பது ChatGPTயின் பயிற்சியின் முதல் படியாகும்.

இந்த கட்டத்தில், மாதிரியானது கணிசமான அளவு டெக்ஸ்ட் டேட்டாவைப் பயன்படுத்தி பயிற்சியளிக்கப்படுகிறது. பின்னர், மாதிரியானது இயற்கையான மொழியில் காணப்படும் புள்ளிவிவர தொடர்புகள் மற்றும் வடிவங்களைக் கண்டறியும். எனவே, இலக்கணப்படி துல்லியமான மற்றும் ஒத்திசைவான பதிலை நாம் பெறலாம்.

பின்னர், மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங்கின் ஒரு படியைப் பின்பற்றுகிறோம். இந்த பகுதியில், மாதிரி ஒரு குறிப்பிட்ட பணியில் பயிற்சியளிக்கப்படுகிறது. எடுத்துக்காட்டாக, இது மொழி மொழிபெயர்ப்பு அல்லது கேள்விக்கு பதிலளிக்கும்.

இறுதியாக, ChatGPT மனிதக் கருத்துகளிலிருந்து வெகுமதி கற்றலைப் பயன்படுத்துகிறது.

இப்போது, இந்த படிகளை ஆராய்வோம்.

உருவாக்கும் முன் பயிற்சி

பயிற்சியின் ஆரம்ப நிலை ஜெனரேட்டிவ் ப்ரீட்ரெய்னிங் ஆகும். மொழி மாதிரிகளைப் பயிற்றுவிப்பதற்கான பொதுவான முறையாகும். டோக்கன் வரிசைகளை உருவாக்க, இந்த முறை "அடுத்த படி கணிப்பு முன்னுதாரணத்தை" பயன்படுத்துகிறது.

இதற்கு என்ன அர்த்தம்?

ஒவ்வொரு டோக்கனும் ஒரு தனிப்பட்ட மாறி. அவை ஒரு சொல் அல்லது ஒரு சொல்லின் ஒரு பகுதியைக் குறிக்கின்றன. மாதிரியானது அதற்கு முன் உள்ள சொற்களைக் கொண்டு அடுத்து வரும் வார்த்தை எது என்பதை தீர்மானிக்க முயற்சிக்கிறது. இது அதன் வரிசையில் உள்ள அனைத்து விதிமுறைகளிலும் நிகழ்தகவு பரவலைப் பயன்படுத்துகிறது.

மொழி மாதிரிகளின் நோக்கம் டோக்கன் வரிசைகளை உருவாக்குவதாகும். இந்த வரிசைகள் மனித மொழியின் வடிவங்களையும் கட்டமைப்புகளையும் குறிக்க வேண்டும். பெரிய அளவிலான உரை தரவுகளில் மாதிரிகளைப் பயிற்றுவிப்பதன் மூலம் இது சாத்தியமாகும்.

பின்னர், மொழியில் வார்த்தைகள் எவ்வாறு விநியோகிக்கப்படுகின்றன என்பதைப் புரிந்துகொள்ள இந்தத் தரவு பயன்படுத்தப்படுகிறது.

பயிற்சியின் போது, மாதிரியானது நிகழ்தகவு விநியோக அளவுருக்களை மாற்றுகிறது.

மேலும், இது ஒரு உரையில் வார்த்தைகளின் எதிர்பார்க்கப்படும் மற்றும் உண்மையான விநியோகத்திற்கு இடையிலான வேறுபாட்டைக் குறைக்க முயற்சிக்கிறது. இழப்பு செயல்பாட்டைப் பயன்படுத்துவதன் மூலம் இது சாத்தியமாகும். இழப்பு செயல்பாடு எதிர்பார்க்கப்படும் மற்றும் உண்மையான விநியோகங்களுக்கு இடையிலான வேறுபாட்டைக் கணக்கிடுகிறது.

இயற்கை மொழி செயலாக்கம் மற்றும் கணினி பார்வை நாங்கள் ஜெனரேட்டிவ் ப்ரீட்ரெய்னிங்கைப் பயன்படுத்தும் பகுதிகளில் ஒன்றாகும்.

ஓப்பனை 2

சீரமைப்பு பிரச்சினை

ஜெனரேட்டிவ் ப்ரீட்ரெய்னிங்கில் உள்ள சிரமங்களில் ஒன்று சீரமைப்பு பிரச்சனை. இது மாதிரியின் நிகழ்தகவு விநியோகத்தை உண்மையான தரவின் விநியோகத்துடன் பொருத்துவதில் உள்ள சிரமத்தைக் குறிக்கிறது.
வேறு வார்த்தைகளில் கூறுவதானால், மாதிரியின் பதில்கள் மனிதனைப் போலவே இருக்க வேண்டும்.

மாடல் எப்போதாவது எதிர்பாராத அல்லது முறையற்ற பதில்களை வழங்கலாம். மேலும், பயிற்சி தரவு சார்பு அல்லது மாதிரியின் சூழல் விழிப்புணர்வு இல்லாமை போன்ற பல்வேறு காரணங்களால் இது ஏற்படலாம். மொழி மாதிரிகளின் தரத்தை மேம்படுத்த, சீரமைப்புச் சிக்கல் தீர்க்கப்பட வேண்டும்.

இந்தச் சிக்கலைச் சமாளிக்க, ChatGPT போன்ற மொழி மாதிரிகள் நன்றாகச் சரிப்படுத்தும் நுட்பங்களைப் பயன்படுத்துகின்றன.

கண்காணிக்கப்படும் ஃபைன்-டியூனிங்

ChatGPT பயிற்சியின் இரண்டாம் பகுதி நன்றாகச் சரிப்படுத்தப்படும். மனித டெவலப்பர்கள் இந்த கட்டத்தில் உரையாடல்களில் ஈடுபடுகின்றனர், மனித பயனர் மற்றும் சாட்போட் ஆகிய இரண்டிலும் செயல்படுகின்றனர்.

இந்த பேச்சுக்கள் பதிவு செய்யப்பட்டு தரவுத்தொகுப்பில் தொகுக்கப்பட்டுள்ளன. ஒவ்வொரு பயிற்சி மாதிரியும் "சாட்போட்" ஆக பணியாற்றும் மனித டெவலப்பரின் அடுத்த பதிலுடன் பொருந்தக்கூடிய தனித்துவமான உரையாடல் வரலாற்றை உள்ளடக்கியது.

மேற்பார்வையிடப்பட்ட ஃபைன்-டியூனிங்கின் நோக்கம், மாதிரியால் தொடர்புடைய பதிலில் உள்ள டோக்கன்களின் வரிசைக்கு ஒதுக்கப்பட்ட நிகழ்தகவை அதிகரிப்பதாகும். இந்த முறை "சாயல் கற்றல்" அல்லது "நடத்தை குளோனிங்" என்று அழைக்கப்படுகிறது.

இந்த வழியில் மாதிரியானது மிகவும் இயற்கையான ஒலி மற்றும் ஒத்திசைவான பதில்களை வழங்க கற்றுக்கொள்ள முடியும். இது மனித ஒப்பந்ததாரர்கள் அளித்த பதில்களை பிரதிபலிக்கிறது.

மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் என்பது ஒரு குறிப்பிட்ட பணிக்காக மொழி மாதிரியை சரிசெய்ய முடியும்.

ஒரு உதாரணம் தருவோம். திரைப்படப் பரிந்துரைகளை வழங்குவதற்கு ஒரு சாட்போட்டைக் கற்பிக்க விரும்புகிறோம் என்று வைத்துக்கொள்வோம். திரைப்பட விளக்கங்களின் அடிப்படையில் திரைப்பட மதிப்பீடுகளைக் கணிக்க மொழி மாதிரியைப் பயிற்றுவிப்போம். மேலும், திரைப்பட விளக்கங்கள் மற்றும் மதிப்பீடுகளின் தரவுத்தொகுப்பைப் பயன்படுத்துவோம்.

ஒரு திரைப்படத்தின் எந்த அம்சங்கள் அதிக அல்லது மோசமான மதிப்பீடுகளுடன் ஒத்துப்போகின்றன என்பதை அல்காரிதம் இறுதியில் கண்டுபிடிக்கும்.

இது பயிற்சி பெற்ற பிறகு, மனித பயனர்களுக்கு திரைப்படங்களைப் பரிந்துரைக்க எங்கள் மாதிரியைப் பயன்படுத்தலாம். பயனர்கள் தாங்கள் ரசிக்கும் திரைப்படத்தை விவரிக்கலாம், மேலும் அதனுடன் ஒப்பிடக்கூடிய அதிகமான திரைப்படங்களைப் பரிந்துரைக்க சாட்போட் சுத்திகரிக்கப்பட்ட மொழி மாதிரியைப் பயன்படுத்தும்.

மேற்பார்வை வரம்புகள்: விநியோக மாற்றம்

மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் என்பது ஒரு குறிப்பிட்ட இலக்கை நிறைவேற்ற ஒரு மொழி மாதிரியை கற்பிப்பதாகும். மாடலை ஊட்டுவதன் மூலம் இது சாத்தியமாகும் தரவுத்தொகுப்பைக் பின்னர் கணிப்புகளைச் செய்ய பயிற்சி அளிக்க வேண்டும். இருப்பினும், இந்த அமைப்பு "மேற்பார்வை கட்டுப்பாடுகள்" எனப்படும் வரம்புகளைக் கொண்டுள்ளது.

இந்த கட்டுப்பாடுகளில் ஒன்று "விநியோக மாற்றம்" ஆகும். மாதிரி எதிர்கொள்ளும் உள்ளீடுகளின் நிஜ உலக விநியோகத்தை பயிற்சித் தரவு துல்லியமாக பிரதிபலிக்காத சாத்தியத்தை இது குறிக்கிறது.

முந்தைய உதாரணத்தை மதிப்பாய்வு செய்வோம். திரைப்படப் பரிந்துரை எடுத்துக்காட்டில், மாதிரியைப் பயிற்றுவிக்கப் பயன்படுத்தப்படும் தரவுத்தொகுப்பு, சாட்போட் சந்திக்கும் பல்வேறு திரைப்படங்கள் மற்றும் பயனர் விருப்பங்களைத் துல்லியமாகப் பிரதிபலிக்காது. சாட்பாட் நாம் விரும்புவது போல் செயல்படாமல் இருக்கலாம்.

இதன் விளைவாக, இது பயிற்சியின் போது கவனிக்கப்பட்டவற்றிலிருந்து வேறுபட்ட உள்ளீடுகளை சந்திக்கிறது.

மேற்பார்வையிடப்பட்ட கற்றலுக்கு, கொடுக்கப்பட்ட நிகழ்வுகளின் தொகுப்பில் மட்டுமே மாதிரி பயிற்சியளிக்கப்படும்போது, இந்தச் சிக்கல் எழுகிறது.

கூடுதலாக, புதிய சூழல்களுக்கு ஏற்பவும் அதன் தவறுகளிலிருந்து கற்றுக்கொள்ளவும் வலுவூட்டல் கற்றல் பயன்படுத்தப்பட்டால், விநியோக மாற்றத்தின் முகத்தில் மாதிரி சிறப்பாகச் செயல்படலாம்.

விருப்பங்களின் அடிப்படையில், வெகுமதி கற்றல்

வெகுமதி கற்றல் என்பது சாட்போட்டை உருவாக்குவதற்கான மூன்றாவது பயிற்சி நிலை. வெகுமதி கற்றலில், வெகுமதி சமிக்ஞையை அதிகரிக்க மாதிரி கற்பிக்கப்படுகிறது.

மாடல் எவ்வளவு திறம்பட வேலையைச் செய்கிறது என்பதைக் குறிக்கும் மதிப்பெண் இது. மாதிரியின் பதில்களை மதிப்பிடும் அல்லது மதிப்பிடும் நபர்களின் உள்ளீட்டின் அடிப்படையில் வெகுமதி சமிக்ஞை உள்ளது.

வெகுமதி கற்றல் என்பது மனித பயனர்கள் விரும்பும் உயர்தர பதில்களை உருவாக்கும் சாட்போட்டை உருவாக்குவதை நோக்கமாகக் கொண்டுள்ளது. இதைச் செய்ய, இயந்திர கற்றல் நுட்பம் என்று அழைக்கப்படுகிறது வலுவூட்டல் கற்றல்-இது பின்னூட்டத்திலிருந்து கற்றலை உள்ளடக்கியது வெகுமதிகளின் வடிவத்தில் - மாதிரியைப் பயிற்றுவிக்கப் பயன்படுகிறது.

சாட்பாட் பயனர் விசாரணைகளுக்கு பதிலளிக்கிறது, எடுத்துக்காட்டாக, பணியின் தற்போதைய பிடிப்பைப் பொறுத்து, வெகுமதி கற்றலின் போது அது அவருக்கு வழங்கப்படுகிறது. மனித நீதிபதிகளால் பதில்கள் மதிப்பிடப்பட்டவுடன், சாட்பாட் எவ்வளவு திறம்பட செயல்படுகிறது என்பதன் அடிப்படையில் வெகுமதி சமிக்ஞை வழங்கப்படுகிறது.

இந்த ரிவார்டு சிக்னலை, அதன் அமைப்புகளை மாற்ற, சாட்போட் பயன்படுத்துகிறது. மேலும், இது பணி செயல்திறனை மேம்படுத்துகிறது.

வெகுமதி கற்றலில் சில வரம்புகள்

வெகுமதி கற்றலின் ஒரு குறைபாடு என்னவென்றால், சாட்போட்டின் பதில்கள் குறித்த பின்னூட்டம் சிறிது நேரம் வராமல் போகலாம், ஏனெனில் வெகுமதி சமிக்ஞை குறைவாகவும் தாமதமாகவும் இருக்கலாம். இதன் விளைவாக, சாட்போட்டை வெற்றிகரமாகப் பயிற்றுவிப்பது சவாலாக இருக்கலாம், ஏனெனில் அது குறிப்பிட்ட பதில்களைப் பற்றிய பின்னூட்டங்களைப் பெறாமல் போகலாம்.

மற்றொரு சிக்கல் என்னவென்றால், மனித நீதிபதிகள் வெற்றிகரமான பதிலை உருவாக்குவது பற்றிய மாறுபட்ட பார்வைகள் அல்லது விளக்கங்களைக் கொண்டிருக்கலாம், இது வெகுமதி சமிக்ஞையில் ஒரு சார்புக்கு வழிவகுக்கும். இதைக் குறைக்க, இது மிகவும் நம்பகமான வெகுமதி சமிக்ஞையை வழங்க பல நீதிபதிகளால் அடிக்கடி பயன்படுத்தப்படுகிறது.

எதிர்காலம் என்ன?

ChatGPT இன் செயல்திறனை மேலும் மேம்படுத்த பல சாத்தியமான எதிர்கால படிகள் உள்ளன.

மாதிரியின் புரிதலை அதிகரிக்க, ஒரு சாத்தியமான எதிர்கால வழி, கூடுதல் பயிற்சி தரவுத்தொகுப்புகள் மற்றும் தரவு மூலங்களைச் சேர்ப்பதாகும். உரை அல்லாத உள்ளீடுகளைப் புரிந்துகொள்வதற்கும் கணக்கில் எடுத்துக்கொள்வதற்கும் மாதிரியின் திறனை மேம்படுத்துவதும் சாத்தியமாகும்.

எடுத்துக்காட்டாக, மொழி மாதிரிகள் காட்சிகள் அல்லது ஒலிகளைப் புரிந்துகொள்ள முடியும்.

குறிப்பிட்ட பயிற்சி நுட்பங்களை இணைப்பதன் மூலம் சில பணிகளுக்கு ChatGPT ஐ மேம்படுத்தலாம். உதாரணமாக, அது செயல்பட முடியும் உணர்வு பகுப்பாய்வு அல்லது இயற்கை மொழி உருவாக்கம். முடிவில், ChatGPT மற்றும் தொடர்புடைய மொழி மாதிரிகள் முன்னேற்றத்திற்கான பெரும் வாக்குறுதியைக் காட்டுகின்றன.