ChatGPT හි සම්පූර්ණ පුහුණු ක්‍රියාවලිය පැහැදිලි කර ඇත

පටුන[සඟවන්න][පෙන්වන්න]

උත්පාදක පූර්ව පුහුණුව+-
- පෙළගැස්වීමේ ගැටලුව
අධීක්‍ෂණය කරන ලද සියුම් සුසර කිරීම+-
- අධීක්ෂණ සීමාවන්: බෙදාහැරීමේ මාරුව
මනාප මත පදනම්ව, ප්‍රතිලාභ ඉගෙනීම
අනාගතය කෙබඳු වේද?

ChatGPT යනු විශිෂ්ට කෘතිම බුද්ධි භාෂා ආකෘතියකි. විවිධ කාර්යයන් සඳහා අපට සහාය වීමට අපි සියල්ලෝම එය භාවිතා කරමු.

එතරම් මනුෂ්‍යයන් මෙන් පෙනෙන පිළිතුරු නිපදවීමට එය පුහුණු කළේ කෙසේදැයි ඔබ කවදා හෝ ප්‍රශ්න කර තිබේද? මෙම ලිපියෙන් අපි ChatGPT හි පුහුණුව විමසා බලමු.

එය වඩාත් කැපී පෙනෙන එකක් බවට පරිණාමය වූ ආකාරය අපි පැහැදිලි කරන්නෙමු භාෂා ආකෘති. අපි ChatGPT හි කුතුහලය දනවන ලෝකය ගවේෂණය කරන විට, සොයාගැනීමේ ගමනක් යන්න.

පුහුණුව පිළිබඳ දළ විශ්ලේෂණය

ChatGPT යනු ස්වභාවික භාෂා සැකසුම් ආකෘතියකි.

ChatGPT සමඟින්, අපට අන්තර්ක්‍රියාකාරී සංවාදවල සහ මිනිසුන් වැනි සාකච්ඡාවල නිරත විය හැක. එයට සමාන ප්‍රවේශයක් භාවිතා කරයි GPT උපදෙස් දෙන්න, අති නවීන භාෂා ආකෘතියකි. එය ChatGPT ට ටික කලකට පෙර සංවර්ධනය කරන ලදී.

එය වඩාත් ආකර්ෂණීය ක්රමයක් භාවිතා කරයි. මෙය ස්වභාවික පරිශීලක අන්තර්ක්‍රියා සක්‍රීය කරයි. එබැවින්, එය චැට්බෝට් සහ අතථ්‍ය සහායක වැනි විවිධ යෙදුම් සඳහා පරිපූර්ණ මෙවලමකි.

ChatGPT හි පුහුණු ක්‍රියා පටිපාටිය බහු-අදියර ක්‍රියාවලියකි. ජනක පූර්ව පුහුණුව යනු ChatGPT පුහුණුවේ පළමු පියවරයි.

මෙම අදියරේදී, ආකෘතිය පුහුණු කරනු ලබන්නේ ප්‍රමාණාත්මක පෙළ දත්ත භාවිතා කරමිනි. ඉන්පසුව, ආකෘතිය ස්වභාවික භාෂාවේ ඇති සංඛ්‍යානමය සහසම්බන්ධතා සහ රටා සොයා ගනී. එබැවින්, අපට ව්‍යාකරණමය වශයෙන් නිවැරදි සහ සුසංයෝගී ප්‍රතිචාරයක් ලබා ගත හැක.

ඉන්පසුව අපි අධීක්ෂණය කරන ලද සියුම් සුසර කිරීමේ පියවරක් අනුගමනය කරන්නෙමු. මෙම කොටසෙහි, ආකෘතිය විශේෂිත කාර්යයක් මත පුහුණු කරනු ලැබේ. උදාහරණයක් ලෙස, එයට භාෂා පරිවර්තනය හෝ ප්‍රශ්නවලට පිළිතුරු සැපයීම සිදු කළ හැක.

අවසාන වශයෙන්, ChatGPT මානව ප්‍රතිපෝෂණ වලින් ත්‍යාග ඉගෙනීම භාවිතා කරයි.

දැන් අපි මෙම පියවර විමසා බලමු.

උත්පාදක පූර්ව පුහුණුව

පුහුණුවේ ආරම්භක මට්ටම වන්නේ උත්පාදක පූර්ව පුහුණුවයි. භාෂා ආකෘති පුහුණු කිරීම සඳහා එය පොදු ක්රමයකි. සංකේත අනුපිළිවෙල නිර්මාණය කිරීම සඳහා, ක්‍රමය "ඊළඟ පියවර පුරෝකථන ආදර්ශය" අදාළ වේ.

එහි තේරුම කුමක්ද?

සෑම ටෝකනයක්ම අද්විතීය විචල්‍යයකි. ඔවුන් වචනයක් හෝ වචනයක කොටසක් නියෝජනය කරයි. ආකෘතිය එයට පෙර වචන ලබා දී ඊළඟට පැමිණීමට ඉඩ ඇති වචනය තීරණය කිරීමට උත්සාහ කරයි. එය එහි අනුපිළිවෙලෙහි සියලුම නියමයන් හරහා සම්භාවිතා ව්‍යාප්තිය භාවිතා කරයි.

භාෂා ආකෘතිවල අරමුණ සංකේත අනුපිළිවෙල ගොඩනැගීමයි. මෙම අනුපිළිවෙල මානව භාෂාවේ රටා සහ ව්‍යුහයන් නියෝජනය කළ යුතුය. විශාල පෙළ දත්ත ප්‍රමාණයක ආකෘති පුහුණු කිරීමෙන් මෙය කළ හැකිය.

පසුව, භාෂාවේ වචන බෙදා හරින ආකාරය තේරුම් ගැනීමට මෙම දත්ත භාවිතා කරයි.

පුහුණුව අතරතුර, ආකෘතිය සම්භාවිතා බෙදා හැරීමේ පරාමිතීන් වෙනස් කරයි.

තවද, එය පාඨයක වචනවල අපේක්ෂිත සහ සැබෑ ව්‍යාප්තිය අතර වෙනස අඩු කිරීමට උත්සාහ කරයි. පාඩු ශ්රිතයක් භාවිතයෙන් මෙය කළ හැකිය. අලාභ ශ්‍රිතය අපේක්ෂිත සහ සැබෑ බෙදාහැරීම් අතර වෙනස ගණනය කරයි.

ස්වාභාවික භාෂා සැකසුම් සහ පරිගණක දැක්ම අපි Generative Pretraining භාවිතා කරන එක් අංශයකි.

විවෘතයි 2

පෙළගැස්වීමේ ගැටලුව

පෙළගැස්වීමේ ගැටලුව උත්පාදක පූර්ව පුහුණුවෙහි එක් දුෂ්කරතාවයකි. මෙම ආකෘතියේ සම්භාවිතා ව්‍යාප්තිය සත්‍ය දත්ත ව්‍යාප්තියට ගැළපීමේ දුෂ්කරතාවට යොමු වේ.
වෙනත් වචන වලින් කිවහොත්, ආකෘතියේ උත්පාදනය කරන ලද පිළිතුරු වඩාත් මානව-සමාන විය යුතුය.

ආකෘතිය ඉඳහිට අනපේක්ෂිත හෝ නුසුදුසු ප්රතිචාර ලබා දිය හැක. තවද, මෙය පුහුණු දත්ත නැඹුරුව හෝ ආකෘතියේ සන්දර්භය පිළිබඳ දැනුවත්භාවය නොමැතිකම වැනි විවිධ හේතු නිසා ඇති විය හැක. භාෂා ආකෘතිවල ගුණාත්මකභාවය වැඩි දියුණු කිරීම සඳහා පෙළගැස්වීමේ ගැටලුව විසඳිය යුතුය.

මෙම ගැටළුව මඟහරවා ගැනීම සඳහා, ChatGPT වැනි භාෂා ආකෘති සියුම් සුසර කිරීමේ ක්‍රම භාවිතා කරයි.

අධීක්‍ෂණය කරන ලද සියුම් සුසර කිරීම

ChatGPT පුහුණුවේ දෙවන කොටස සියුම් සුසර කිරීම අධීක්ෂණය කෙරේ. මානව සංවර්ධකයින් මෙම අවස්ථාවේදී සංවාදවල නිරත වන අතර, මිනිස් පරිශීලකයා සහ චැට්බෝට් යන දෙකම ලෙස ක්‍රියා කරයි.

මෙම කතා පටිගත කර දත්ත කට්ටලයකට එකතු කර ඇත. සෑම පුහුණු නියැදියකටම “චැට්බෝට්” ලෙස සේවය කරන මානව සංවර්ධකයාගේ මීළඟ පිළිතුර සමඟ ගැළපෙන වෙනස් සංවාද ඉතිහාසයක් ඇතුළත් වේ.

අධීක්ෂණය කරන ලද සියුම්-සුසර කිරීමේ අරමුණ වන්නේ ආදර්ශය මගින් සම්බන්ධිත පිළිතුරෙහි ටෝකන අනුපිළිවෙලට පවරා ඇති සම්භාවිතාව උපරිම කිරීමයි. මෙම ක්‍රමය "අනුකරණය ඉගෙනීම" හෝ "චර්යා ක්ලෝනකරණය" ලෙස හැඳින්වේ.

මේ ආකාරයෙන් ආකෘතියට වඩාත් ස්වභාවික-ශබ්ද සහ සුසංයෝගී ප්‍රතිචාර සැපයීමට ඉගෙන ගත හැක. එය මානව කොන්ත්‍රාත්කරුවන් විසින් ලබා දුන් පිළිතුරු අනුකරණය කිරීමකි.

සුපරීක්ෂිත සියුම් සුසර කිරීම යනු යම් කාර්යයක් සඳහා භාෂා ආකෘතිය සකස් කළ හැකි ස්ථානයයි.

අපි උදාහරණයක් දෙමු. චිත්‍රපට නිර්දේශ සැපයීම සඳහා අපට චැට්බෝට් එකක් ඉගැන්වීමට අවශ්‍ය යැයි සිතමු. චිත්‍රපට විස්තර මත පදනම්ව චිත්‍රපට ශ්‍රේණිගත කිරීම් පුරෝකථනය කිරීමට අපි භාෂා ආකෘතිය පුහුණු කරන්නෙමු. තවද, අපි චිත්‍රපට විස්තර සහ ශ්‍රේණිගත කිරීම් දත්ත කට්ටලයක් භාවිතා කරමු.

ඇල්ගොරිතම අවසානයේ චිත්‍රපටයක ඉහළ හෝ දුර්වල ශ්‍රේණිගත කිරීම්වලට අනුරූප වන අංගයන් සොයා ගනු ඇත.

එය පුහුණු කිරීමෙන් පසුව, මිනිස් පරිශීලකයින්ට චිත්‍රපට යෝජනා කිරීමට අපට අපගේ ආකෘතිය භාවිතා කළ හැකිය. පරිශීලකයින්ට ඔවුන් රසවිඳින චිත්‍රපටයක් විස්තර කළ හැකි අතර, චැට්බෝට් විසින් ඊට සැසඳිය හැකි තවත් චිත්‍රපට නිර්දේශ කිරීමට පිරිපහදු කළ භාෂා ආකෘතිය භාවිතා කරයි.

අධීක්ෂණ සීමාවන්: බෙදාහැරීමේ මාරුව

අධීක්‍ෂිත සියුම් සුසර කිරීම යනු නිශ්චිත ඉලක්කයක් ඉටු කිරීමට භාෂා ආකෘතියක් ඉගැන්වීමයි. ආදර්ශ a පෝෂණය කිරීමෙන් මෙය කළ හැකිය දත්ත කට්ටලය පසුව අනාවැකි කීමට එය පුහුණු කරයි. කෙසේ වෙතත්, මෙම පද්ධතියට "අධීක්ෂණ සීමා කිරීම්" ලෙස හැඳින්වෙන සීමාවන් ඇත.

මෙම සීමාවන්ගෙන් එකක් වන්නේ "බෙදාහැරීමේ මාරුව" ය. එය පුහුණු දත්ත මඟින් ආකෘතියට මුහුණ දෙන යෙදවුම්වල සැබෑ ලෝක ව්‍යාප්තිය නිවැරදිව පිළිබිඹු නොවීමට ඇති හැකියාව ගැන සඳහන් කරයි.

අපි කලින් උදාහරණය සලකා බලමු. චිත්‍රපට යෝජනා උදාහරණයේ, ආකෘතිය පුහුණු කිරීමට භාවිතා කරන දත්ත කට්ටලය චැට්බෝට් මුහුණ දෙන විවිධ චිත්‍රපට සහ පරිශීලක මනාපයන් නිවැරදිව පිළිබිඹු නොකරනු ඇත. chatbot අපට අවශ්‍ය පරිදි ක්‍රියා නොකරනු ඇත.

එහි ප්‍රතිඵලයක් වශයෙන්, පුහුණුව අතරතුර එය නිරීක්ෂණය කළ ඒවාට වඩා වෙනස් යෙදවුම් හමු වේ.

අධීක්ෂණ ඉගෙනීම සඳහා, ආකෘතිය ලබා දී ඇති අවස්ථා සමූහයක් මත පමණක් පුහුණු කරන විට, මෙම ගැටළුව පැන නගී.

අතිරේකව, නව සන්දර්භයන්ට අනුවර්තනය වීමට සහ එහි වැරදි වලින් ඉගෙන ගැනීමට උපකාර කිරීමට ශක්තිමත් කිරීමේ ඉගෙනීම භාවිතා කරන්නේ නම්, බෙදා හැරීමේ වෙනසක් හමුවේ ආකෘතිය වඩා හොඳින් ක්‍රියා කළ හැකිය.

මනාප මත පදනම්ව, ප්‍රතිලාභ ඉගෙනීම

Reward learning යනු chatbot එකක් සංවර්ධනය කිරීමේ තුන්වන පුහුණු අදියරයි. විපාක ඉගෙනීමේදී, විපාක සංඥාවක් උපරිම කිරීමට ආදර්ශය උගන්වනු ලැබේ.

එය ආකෘතිය කෙතරම් ඵලදායී ලෙස කාර්යය ඉටු කරන්නේද යන්න පෙන්නුම් කරන ලකුණු වේ. ත්‍යාග සංඥාව පදනම් වන්නේ ආකෘතියේ පිළිතුරු ශ්‍රේණිගත කරන හෝ තක්සේරු කරන පුද්ගලයින්ගේ ආදානය මතය.

Reward learning අරමුණු කරන්නේ මානව පරිශීලකයන් කැමති උසස් තත්ත්වයේ පිළිතුරු නිපදවන chatbot එකක් සංවර්ධනය කිරීමයි. මෙය සිදු කිරීම සඳහා, යන්ත්‍ර ඉගෙනීමේ ක්‍රමයක් ලෙස හැඳින්වේ ශක්තිමත් කිරීමේ ඉගෙනීම - ප්‍රතිපෝෂණ වලින් ඉගෙනීම ඇතුළත් වේ ත්‍යාග ස්වරූපයෙන් - ආකෘතිය පුහුණු කිරීමට භාවිතා කරයි.

චැට්බොට් පරිශීලක විමසීම්වලට පිළිතුරු සපයයි, උදාහරණයක් ලෙස, ත්‍යාග ඉගෙනීමේදී එයට සපයන කාර්යය පිළිබඳ එහි වර්තමාන ග්‍රහණය මත පදනම්ව. මානව විනිසුරුවන් විසින් පිළිතුරු ඇගයීමට ලක් කළ පසු චැට්බෝට් කෙතරම් ඵලදායී ලෙස ක්‍රියා කරයිද යන්න මත පදනම්ව විපාක සංඥාවක් ලබා දෙනු ලැබේ.

මෙම ප්‍රතිලාභ සංඥාව චැට්බෝට් විසින් එහි සැකසීම් වෙනස් කිරීමට භාවිතා කරයි. තවද, එය කාර්ය සාධනය වැඩි දියුණු කරයි.

ප්‍රතිලාභ ඉගෙනීමේ සීමාවන් කිහිපයක්

ත්‍යාග ඉගෙනීමේ අඩුපාඩුවක් නම්, ත්‍යාග සංඥාව විරල සහ ප්‍රමාද විය හැකි බැවින් chatbot හි පිළිතුරු පිළිබඳ ප්‍රතිපෝෂණය යම් කාලයක් සඳහා නොපැමිණීමයි. එහි ප්‍රතිඵලයක් වශයෙන්, බොහෝ කලකට පසුව නිශ්චිත පිළිතුරු සඳහා ප්‍රතිපෝෂණ නොලැබෙන නිසා චැට්බෝට් සාර්ථකව පුහුණු කිරීම අභියෝගාත්මක විය හැකිය.

තවත් ප්‍රශ්නයක් නම්, සාර්ථක ප්‍රතිචාරයක් දක්වන දේ පිළිබඳව මානව විනිශ්චයකරුවන්ට විවිධ අදහස් හෝ අර්ථකථන තිබිය හැකි අතර, එය විපාක සංඥාවෙහි පක්ෂග්‍රාහී වීමට හේතු විය හැක. මෙය අඩු කිරීම සඳහා, වඩාත් විශ්වාසදායක ත්‍යාග සංඥාවක් ලබා දීමට විනිසුරුවන් කිහිප දෙනෙකු විසින් එය නිතර භාවිතා කරනු ලැබේ.

අනාගතය කෙබඳු වේද?

ChatGPT හි කාර්ය සාධනය තවදුරටත් වැඩිදියුණු කිරීම සඳහා විභව අනාගත පියවර කිහිපයක් තිබේ.

ආකෘතියේ අවබෝධය වැඩි කිරීම සඳහා, එක් විභව අනාගත මාර්ගයක් වන්නේ තවත් පුහුණු දත්ත කට්ටල සහ දත්ත මූලාශ්‍ර ඇතුළත් කිරීමයි. පාඨමය නොවන යෙදවුම් තේරුම් ගැනීමට සහ සැලකිල්ලට ගැනීමට ආකෘතියේ ධාරිතාව වැඩි දියුණු කිරීම ද කළ හැකිය.

උදාහරණයක් ලෙස, භාෂා ආකෘතිවලට දෘශ්‍ය හෝ ශබ්ද තේරුම් ගත හැකිය.

විශේෂිත පුහුණු ශිල්පීය ක්‍රම ඇතුළත් කිරීමෙන් ChatGPT ද ඇතැම් කාර්යයන් සඳහා වැඩිදියුණු කළ හැක. උදාහරණයක් ලෙස, එය ඉටු කළ හැකිය මනෝ විශ්ලේෂණයකි හෝ ස්වභාවික භාෂා නිෂ්පාදනය. අවසාන වශයෙන්, ChatGPT සහ අදාළ භාෂා ආකෘති දියුණුව සඳහා විශාල පොරොන්දුවක් පෙන්වයි.