വലിയ ഭാഷാ മോഡലുകൾ: നിങ്ങൾ അറിയേണ്ടതെല്ലാം

ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]

ഒരു വലിയ ഭാഷാ മാതൃക എന്താണ്?
എങ്ങനെയാണ് LLM-കൾ പരിശീലിക്കുന്നത്?+-
- ഒരു ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ ഉപയോഗിച്ച് പ്രീ-ട്രെയിനിംഗ്
- ശരിയാക്കുക
വലിയ ഭാഷാ മോഡലുകളുടെ പരിമിതികൾ+-
തീരുമാനം

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിലെ ഒരു ക്ലാസിക് പ്രശ്നം മനുഷ്യന്റെ ഭാഷ മനസ്സിലാക്കാൻ കഴിയുന്ന ഒരു യന്ത്രത്തെ പിന്തുടരുന്നതാണ്.

ഉദാഹരണത്തിന്, നിങ്ങളുടെ പ്രിയപ്പെട്ട തിരയൽ എഞ്ചിനിൽ "സമീപത്തുള്ള ഇറ്റാലിയൻ റെസ്റ്റോറന്റുകൾ" തിരയുമ്പോൾ, ഒരു അൽഗോരിതം നിങ്ങളുടെ അന്വേഷണത്തിലെ ഓരോ വാക്കും വിശകലനം ചെയ്യുകയും പ്രസക്തമായ ഫലങ്ങൾ ഔട്ട്പുട്ട് ചെയ്യുകയും വേണം. മാന്യമായ ഒരു വിവർത്തന ആപ്പിന് ഇംഗ്ലീഷിലെ ഒരു പ്രത്യേക പദത്തിന്റെ സന്ദർഭം മനസ്സിലാക്കുകയും ഭാഷകൾ തമ്മിലുള്ള വ്യാകരണത്തിലെ വ്യത്യാസങ്ങൾ എങ്ങനെയെങ്കിലും കണക്കിലെടുക്കുകയും വേണം.

ഈ ടാസ്ക്കുകളും അതിലേറെയും കംപ്യൂട്ടർ സയൻസിന്റെ ഉപവിഭാഗത്തിന് കീഴിലാണ് പ്രകൃതിഭാഷ പ്രോസസ്സിംഗ് അല്ലെങ്കിൽ എൻ.എൽ.പി. ആമസോണിന്റെ അലക്‌സ പോലുള്ള വെർച്വൽ അസിസ്റ്റന്റുകളിൽ നിന്ന് ക്ഷുദ്രകരമായ ഇമെയിൽ കണ്ടെത്തുന്ന സ്പാം ഫിൽട്ടറുകൾ വരെയുള്ള പ്രായോഗിക ആപ്ലിക്കേഷനുകളുടെ വിപുലമായ ശ്രേണിയിലേക്ക് NLP-യിലെ മുന്നേറ്റങ്ങൾ നയിച്ചു.

എൻഎൽപിയിലെ ഏറ്റവും പുതിയ മുന്നേറ്റം എ എന്ന ആശയമാണ് വലിയ ഭാഷാ മാതൃക അല്ലെങ്കിൽ LLM. GPT-3 പോലുള്ള LLM-കൾ വളരെ ശക്തമായിത്തീർന്നിരിക്കുന്നു, അവ മിക്കവാറും എല്ലാ NLP ടാസ്‌ക്കുകളിലും ഉപയോഗ കേസിലും വിജയിക്കുന്നതായി തോന്നുന്നു.

ഈ ലേഖനത്തിൽ, കൃത്യമായി LLM-കൾ എന്താണെന്നും ഈ മോഡലുകൾ എങ്ങനെ പരിശീലിപ്പിക്കപ്പെടുന്നുവെന്നും അവയ്‌ക്കുള്ള നിലവിലെ പരിമിതികളെക്കുറിച്ചും ഞങ്ങൾ പരിശോധിക്കും.

ഒരു വലിയ ഭാഷാ മാതൃക എന്താണ്?

ഒരു ഭാഷാ മോഡൽ അതിന്റെ കാമ്പിൽ, വാക്കുകളുടെ ക്രമം എത്രത്തോളം സാധുവായ വാക്യമാണെന്ന് അറിയുന്ന ഒരു അൽഗോരിതം മാത്രമാണ്.

നൂറുകണക്കിന് പുസ്തകങ്ങളിൽ പരിശീലിപ്പിച്ച വളരെ ലളിതമായ ഭാഷാ മാതൃകയ്ക്ക് "അവൻ വീട്ടിലേക്ക് പോയി" എന്നതിനേക്കാൾ സാധുതയുള്ളതാണെന്ന് പറയാൻ കഴിയണം.

താരതമ്യേന ചെറിയ ഡാറ്റാസെറ്റിന് പകരം ഇൻറർനെറ്റിൽ നിന്ന് സ്‌ക്രാപ്പ് ചെയ്‌ത ഒരു വലിയ ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച്, ഞങ്ങൾ ഒരു ആശയത്തെ സമീപിക്കാൻ തുടങ്ങുന്നു. വലിയ ഭാഷാ മാതൃക.

ഉപയോഗിക്കുന്നു ന്യൂറൽ നെറ്റ്വർക്കുകൾ, ഗവേഷകർക്ക് വലിയ അളവിലുള്ള ടെക്സ്റ്റ് ഡാറ്റയിൽ LLM-കളെ പരിശീലിപ്പിക്കാൻ കഴിയും. മോഡൽ കണ്ട ടെക്സ്റ്റ് ഡാറ്റയുടെ അളവ് കാരണം, അടുത്ത വാക്ക് ഒരു ക്രമത്തിൽ പ്രവചിക്കുന്നതിൽ LLM വളരെ മികച്ചതാകുന്നു.

മോഡൽ വളരെ സങ്കീർണ്ണമായി മാറുന്നു, ഇതിന് ധാരാളം എൻ‌എൽ‌പി ജോലികൾ ചെയ്യാൻ കഴിയും. ടെക്‌സ്‌റ്റ് സംഗ്രഹിക്കുക, പുതിയ ഉള്ളടക്കം സൃഷ്‌ടിക്കുക, മനുഷ്യനെപ്പോലെയുള്ള സംഭാഷണം അനുകരിക്കുക എന്നിവയും ഈ ടാസ്‌ക്കുകളിൽ ഉൾപ്പെടുന്നു.

വലിയ ഭാഷാ മോഡലുകൾക്ക് പ്രോംപ്റ്റുകളെ അടിസ്ഥാനമാക്കി പുതിയ ഉള്ളടക്കം സൃഷ്ടിക്കാൻ കഴിയും

ഉദാഹരണത്തിന്, വളരെ പ്രചാരമുള്ള GPT-3 ഭാഷാ മോഡൽ 175 ബില്ല്യണിലധികം പാരാമീറ്ററുകൾ ഉപയോഗിച്ച് പരിശീലിപ്പിക്കപ്പെടുന്നു, ഇത് ഇതുവരെയുള്ള ഏറ്റവും നൂതനമായ ഭാഷാ മോഡലായി കണക്കാക്കപ്പെടുന്നു.

ഇതിന് പ്രവർത്തന കോഡ് സൃഷ്ടിക്കാനും മുഴുവൻ ലേഖനങ്ങളും എഴുതാനും ഏത് വിഷയത്തെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാനും കഴിയും.

എങ്ങനെയാണ് LLM-കൾ പരിശീലിക്കുന്നത്?

LLM-കൾ അവരുടെ പരിശീലന ഡാറ്റയുടെ വലുപ്പത്തിന് വളരെയധികം കടപ്പെട്ടിരിക്കുന്നു എന്ന വസ്തുത ഞങ്ങൾ ഹ്രസ്വമായി സ്പർശിച്ചു. ഞങ്ങൾ അവയെ "വലിയ" ഭാഷാ മാതൃകകൾ എന്ന് വിളിക്കുന്നതിന് ഒരു കാരണമുണ്ട്.

ഒരു ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ ഉപയോഗിച്ച് പ്രീ-ട്രെയിനിംഗ്

പരിശീലനത്തിന് മുമ്പുള്ള ഘട്ടത്തിൽ, ഒരു ഭാഷയുടെ പൊതുവായ ഘടനയും നിയമങ്ങളും പഠിക്കുന്നതിനായി നിലവിലുള്ള ടെക്സ്റ്റ് ഡാറ്റയിലേക്ക് LLM-കൾ പരിചയപ്പെടുത്തുന്നു.

കഴിഞ്ഞ കുറച്ച് വർഷങ്ങളായി, പൊതു ഇന്റർനെറ്റിന്റെ ഒരു പ്രധാന ഭാഗം ഉൾക്കൊള്ളുന്ന ഡാറ്റാസെറ്റുകളിൽ LLM-കൾ മുൻകൂട്ടി പരിശീലനം നേടിയിട്ടുണ്ട്. ഉദാഹരണത്തിന്, GPT-3-ന്റെ ഭാഷാ മാതൃകയിൽ നിന്നുള്ള ഡാറ്റയിൽ പരിശീലനം ലഭിച്ചതാണ് സാധാരണ ക്രാൾ ഡാറ്റാസെറ്റ്, 50 ദശലക്ഷത്തിലധികം ഡൊമെയ്‌നുകളിൽ നിന്ന് സ്‌ക്രാപ്പ് ചെയ്‌ത വെബ് പോസ്റ്റുകൾ, വെബ് പേജുകൾ, ഡിജിറ്റൈസ് ചെയ്‌ത പുസ്‌തകങ്ങൾ എന്നിവയുടെ ഒരു കോർപ്പസ്.

ഭീമാകാരമായ ഡാറ്റാസെറ്റ് പിന്നീട് എ എന്നറിയപ്പെടുന്ന ഒരു മോഡലിലേക്ക് നൽകുന്നു ട്രാൻസ്ഫോർമർ. ട്രാൻസ്ഫോമറുകൾ ഒരു തരം ആഴത്തിലുള്ള ന്യൂറൽ നെറ്റ്‌വർക്ക് അത് തുടർച്ചയായ ഡാറ്റയ്ക്ക് മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു.

വലിയ ഭാഷാ മോഡലുകൾ ട്രാൻസ്ഫോർമറുകൾ ഉപയോഗിക്കുന്നു

ട്രാൻസ്ഫോമറുകൾ ഒരു ഉപയോഗിക്കുന്നു എൻകോഡർ-ഡീകോഡർ ആർക്കിടെക്ചർ ഇൻപുട്ടും ഔട്ട്പുട്ടും കൈകാര്യം ചെയ്യുന്നതിന്. അടിസ്ഥാനപരമായി, ട്രാൻസ്ഫോർമറിൽ രണ്ട് ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ അടങ്ങിയിരിക്കുന്നു: ഒരു എൻകോഡറും ഡീകോഡറും. എൻകോഡറിന് ഇൻപുട്ട് ടെക്‌സ്‌റ്റിന്റെ അർത്ഥം എക്‌സ്‌ട്രാക്‌റ്റുചെയ്യാനും വെക്‌ടറായി സംഭരിക്കാനും കഴിയും. ഡീകോഡർ വെക്റ്റർ സ്വീകരിക്കുകയും വാചകത്തിന്റെ വ്യാഖ്യാനം നൽകുകയും ചെയ്യുന്നു.

എന്നിരുന്നാലും, ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ നന്നായി പ്രവർത്തിക്കാൻ അനുവദിച്ച പ്രധാന ആശയം a എന്ന കൂട്ടിച്ചേർക്കലാണ് സ്വയം ശ്രദ്ധ മെക്കാനിസം. തന്നിരിക്കുന്ന വാക്യത്തിലെ ഏറ്റവും പ്രധാനപ്പെട്ട പദങ്ങളിൽ ശ്രദ്ധ ചെലുത്താൻ സ്വയം ശ്രദ്ധ എന്ന ആശയം മോഡലിനെ അനുവദിച്ചു. ക്രമാനുഗതമായി അകന്നിരിക്കുന്ന വാക്കുകൾക്കിടയിലുള്ള ഭാരം പോലും മെക്കാനിസം പരിഗണിക്കുന്നു.

സ്വയം ശ്രദ്ധയുടെ മറ്റൊരു നേട്ടം, പ്രക്രിയ സമാന്തരമാക്കാം എന്നതാണ്. ക്രമാനുഗതമായ ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നതിനുപകരം, ട്രാൻസ്ഫോർമർ മോഡലുകൾക്ക് എല്ലാ ഇൻപുട്ടുകളും ഒരേസമയം പ്രോസസ്സ് ചെയ്യാൻ കഴിയും. മറ്റ് രീതികളെ അപേക്ഷിച്ച് താരതമ്യേന വേഗത്തിൽ വലിയ അളവിലുള്ള ഡാറ്റ പരിശീലിപ്പിക്കാൻ ഇത് ട്രാൻസ്ഫോർമറുകളെ പ്രാപ്തമാക്കുന്നു.

ശരിയാക്കുക

പരിശീലനത്തിന് മുമ്പുള്ള ഘട്ടത്തിന് ശേഷം, അടിസ്ഥാന LLM-ന് പരിശീലിപ്പിക്കുന്നതിന് പുതിയ വാചകം അവതരിപ്പിക്കാൻ നിങ്ങൾക്ക് തിരഞ്ഞെടുക്കാം. ഞങ്ങൾ ഈ പ്രക്രിയയെ വിളിക്കുന്നു ശരിയാക്കുക ഒരു പ്രത്യേക ടാസ്ക്കിൽ LLM-ന്റെ ഔട്ട്പുട്ട് കൂടുതൽ മെച്ചപ്പെടുത്താൻ പലപ്പോഴും ഉപയോഗിക്കാറുണ്ട്.

ഉദാഹരണത്തിന്, നിങ്ങളുടെ ട്വിറ്റർ അക്കൗണ്ടിനായി ഉള്ളടക്കം സൃഷ്ടിക്കുന്നതിന് ഒരു LLM ഉപയോഗിക്കാൻ നിങ്ങൾ ആഗ്രഹിച്ചേക്കാം. ആവശ്യമുള്ള ഔട്ട്‌പുട്ടിനെക്കുറിച്ച് ഒരു ആശയം നൽകുന്നതിന് നിങ്ങളുടെ മുൻ ട്വീറ്റുകളുടെ നിരവധി ഉദാഹരണങ്ങൾ ഉപയോഗിച്ച് ഞങ്ങൾക്ക് മോഡലിന് നൽകാൻ കഴിയും.

ഫൈൻ-ട്യൂണിംഗിൽ ചില വ്യത്യസ്ത തരം ഉണ്ട്.

വലിയ ഭാഷാ മോഡലുകൾക്ക് കുറച്ച് ഷോട്ട് പഠിക്കാൻ കഴിയും

കുറച്ച് ഷോട്ട് പഠനം ഒരു മോഡലിന് സമാനമായ ഔട്ട്‌പുട്ട് എങ്ങനെ നിർമ്മിക്കാമെന്ന് ഭാഷാ മോഡൽ കണ്ടെത്തുമെന്ന പ്രതീക്ഷയോടെ കുറച്ച് ഉദാഹരണങ്ങൾ നൽകുന്ന പ്രക്രിയയെ സൂചിപ്പിക്കുന്നു. ഒറ്റത്തവണ പഠനം ഒരൊറ്റ ഉദാഹരണം മാത്രം നൽകിയത് ഒഴികെ സമാനമായ ഒരു പ്രക്രിയയാണ്.

വലിയ ഭാഷാ മോഡലുകളുടെ പരിമിതികൾ

GPT-3 പോലുള്ള LLM-കൾ സൂക്ഷ്മമായ ട്യൂണിംഗ് ഇല്ലാതെ പോലും ധാരാളം ഉപയോഗ കേസുകൾ നടത്താൻ പ്രാപ്തമാണ്. എന്നിരുന്നാലും, ഈ മോഡലുകൾ ഇപ്പോഴും അതിന്റേതായ പരിമിതികളോടെയാണ് വരുന്നത്.

ലോകത്തെ കുറിച്ചുള്ള സെമാന്റിക് ധാരണയുടെ അഭാവം

ഉപരിതലത്തിൽ, LLM-കൾ ബുദ്ധിശക്തി കാണിക്കുന്നതായി കാണപ്പെടുന്നു. എന്നിരുന്നാലും, ഈ മോഡലുകൾ അതേ രീതിയിൽ പ്രവർത്തിക്കുന്നില്ല മനുഷ്യ മസ്തിഷ്കം ചെയ്യുന്നു. ഔട്ട്‌പുട്ട് സൃഷ്ടിക്കുന്നതിന് LLM-കൾ സ്ഥിതിവിവരക്കണക്കുകളെ മാത്രം ആശ്രയിക്കുന്നു. അവർക്ക് സ്വന്തമായി ആശയങ്ങളും ആശയങ്ങളും ന്യായവാദം ചെയ്യാനുള്ള കഴിവില്ല.

ഇക്കാരണത്താൽ, ആ പ്രത്യേക ക്രമത്തിൽ വയ്ക്കുമ്പോൾ വാക്കുകൾ "ശരി" അല്ലെങ്കിൽ "സ്ഥിതിവിവരക്കണക്ക് സാധ്യത" എന്ന് തോന്നുന്നതിനാൽ, ഒരു LLM-ന് അസംബന്ധമായ ഉത്തരങ്ങൾ പുറപ്പെടുവിക്കാൻ കഴിയും.

ഭീഷണികൾ

GPT-3 പോലുള്ള മോഡലുകളും കൃത്യമല്ലാത്ത പ്രതികരണങ്ങൾ അനുഭവിക്കുന്നു. LLM-കൾ അറിയപ്പെടുന്ന ഒരു പ്രതിഭാസത്താൽ കഷ്ടപ്പെടാം ഭ്രമം പ്രതികരണത്തിന് യാഥാർത്ഥ്യത്തിൽ അടിസ്ഥാനമില്ലെന്ന് യാതൊരു അവബോധവുമില്ലാതെ മോഡലുകൾ വസ്തുതാപരമായി തെറ്റായ പ്രതികരണം പുറപ്പെടുവിക്കുന്നു.

ഉദാഹരണത്തിന്, ഏറ്റവും പുതിയ iPhone-നെക്കുറിച്ചുള്ള സ്റ്റീവ് ജോബ്സിന്റെ ചിന്തകൾ വിശദീകരിക്കാൻ ഒരു ഉപയോക്താവ് മോഡലിനോട് ആവശ്യപ്പെട്ടേക്കാം. മോഡൽ അതിന്റെ പരിശീലന ഡാറ്റയെ അടിസ്ഥാനമാക്കി നേർത്ത വായുവിൽ നിന്ന് ഒരു ഉദ്ധരണി സൃഷ്ടിച്ചേക്കാം.

പക്ഷപാതവും പരിമിതമായ അറിവും

മറ്റ് പല അൽ‌ഗോരിതങ്ങളെയും പോലെ, വലിയ ഭാഷാ മോഡലുകളും പരിശീലന ഡാറ്റയിൽ നിലവിലുള്ള പക്ഷപാതങ്ങൾ അവകാശമാക്കാൻ സാധ്യതയുണ്ട്. വിവരങ്ങൾ വീണ്ടെടുക്കാൻ ഞങ്ങൾ LLM-കളെ കൂടുതൽ ആശ്രയിക്കാൻ തുടങ്ങുമ്പോൾ, ഈ മോഡലുകളുടെ ഡെവലപ്പർമാർ പക്ഷപാതപരമായ പ്രതികരണങ്ങളുടെ ദോഷകരമായ പ്രത്യാഘാതങ്ങൾ ലഘൂകരിക്കാനുള്ള വഴികൾ കണ്ടെത്തണം.

സമാനമായ ശേഷിയിൽ, മോഡലിന്റെ പരിശീലന ഡാറ്റയുടെ ബ്ലൈൻഡ്‌സ്‌പോട്ടുകളും മോഡലിനെ തന്നെ തടസ്സപ്പെടുത്തും. നിലവിൽ, വലിയ ഭാഷാ മോഡലുകൾ പരിശീലനത്തിന് മാസങ്ങളെടുക്കും. ഈ മോഡലുകൾ പരിധിയിൽ പരിമിതമായ ഡാറ്റാസെറ്റുകളെ ആശ്രയിക്കുന്നു. അതുകൊണ്ടാണ് 2021-ൽ നടന്ന സംഭവങ്ങളെക്കുറിച്ച് ChatGPT-ന് പരിമിതമായ അറിവ് മാത്രമേ ഉള്ളൂ.

തീരുമാനം

സാങ്കേതികവിദ്യയുമായും പൊതുവെ നമ്മുടെ ലോകവുമായും നമ്മൾ എങ്ങനെ ഇടപഴകുന്നു എന്നതിനെ യഥാർത്ഥത്തിൽ മാറ്റാൻ വലിയ ഭാഷാ മാതൃകകൾക്ക് കഴിവുണ്ട്.

ഇന്റർനെറ്റിൽ ലഭ്യമായ വലിയ അളവിലുള്ള ഡാറ്റ ഗവേഷകർക്ക് ഭാഷയുടെ സങ്കീർണ്ണതകളെ മാതൃകയാക്കാനുള്ള ഒരു മാർഗം നൽകി. എന്നിരുന്നാലും, വഴിയിൽ, ഈ ഭാഷാ മാതൃകകൾ ലോകത്തെക്കുറിച്ചുള്ള മനുഷ്യസമാനമായ ധാരണ സ്വീകരിച്ചതായി തോന്നുന്നു.

കൃത്യമായ ഔട്ട്‌പുട്ട് നൽകുന്നതിന് പൊതുജനങ്ങൾ ഈ ഭാഷാ മാതൃകകളെ വിശ്വസിക്കാൻ തുടങ്ങുമ്പോൾ, ഗവേഷകരും ഡവലപ്പർമാരും ഇതിനകം തന്നെ ഗാർഡ്‌റെയിലുകൾ ചേർക്കുന്നതിനുള്ള വഴികൾ കണ്ടെത്തുന്നു, അതുവഴി സാങ്കേതികവിദ്യ ധാർമ്മികമായി തുടരുന്നു.

LLM-കളുടെ ഭാവി എന്താണെന്ന് നിങ്ങൾ കരുതുന്നു?

വലിയ ഭാഷാ മോഡലുകൾ: നിങ്ങൾ അറിയേണ്ടതെല്ലാം

ഒരു വലിയ ഭാഷാ മാതൃക എന്താണ്?

എങ്ങനെയാണ് LLM-കൾ പരിശീലിക്കുന്നത്?