ഭാഷ തിരിച്ചറിയുന്നതിനും സൃഷ്ടിക്കുന്നതിനുമായി പരിശീലനം ലഭിച്ച വലിയ ന്യൂറൽ നെറ്റ്വർക്കുകൾ സമീപ വർഷങ്ങളിൽ വിവിധ ജോലികളിൽ മികച്ച ഫലങ്ങൾ പ്രകടമാക്കിയിട്ടുണ്ട്. വിപുലമായ ടാസ്ക്-നിർദ്ദിഷ്ട ഡാറ്റയോ മോഡൽ പാരാമീറ്ററുകൾ മാറ്റുകയോ ചെയ്യാതെ തന്നെ വലിയ ഭാഷാ മോഡലുകൾ (എൽഎൽഎം) കുറച്ച്-ഷോട്ട് ലേണിംഗിനായി ഉപയോഗിക്കാമെന്നും മികച്ച ഫലങ്ങൾ നേടാമെന്നും GPT-3 തെളിയിച്ചു.
ഗൂഗിൾ, സിലിക്കൺ വാലി ടെക് ഭീമൻ, അടുത്ത തലമുറ AI- ഭാഷാ മോഡലായി ലോകമെമ്പാടുമുള്ള സാങ്കേതിക വ്യവസായത്തിന് PalM അല്ലെങ്കിൽ Pathways Language Model അവതരിപ്പിച്ചു. ഗൂഗിൾ പുതിയത് ഉൾപ്പെടുത്തിയിട്ടുണ്ട് നിർമ്മിത ബുദ്ധി AI- ഭാഷാ മോഡലിന്റെ ഗുണനിലവാരം മെച്ചപ്പെടുത്തുന്നതിനുള്ള തന്ത്രപരമായ ലക്ഷ്യങ്ങളോടെ വാസ്തുവിദ്യയെ PalM-ലേയ്ക്ക് കൊണ്ടുവരുന്നു.
ഈ പോസ്റ്റിൽ, പാം അൽഗോരിതം പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കുന്ന പാരാമീറ്ററുകൾ, അത് പരിഹരിക്കുന്ന പ്രശ്നം എന്നിവയും അതിലേറെയും ഉൾപ്പെടെ വിശദമായി ഞങ്ങൾ പരിശോധിക്കും.
എന്താണ് Google-ന്റെ Palm അൽഗോരിതം?
പാത്ത്വേസ് ലാംഗ്വേജ് മോഡൽ എന്താണ് PalM നിലകൊള്ളുന്നു. പാത്ത്വേസ് AI ആർക്കിടെക്ചർ ശക്തിപ്പെടുത്തുന്നതിനായി Google വികസിപ്പിച്ചെടുത്ത ഒരു പുതിയ അൽഗോരിതം ആണിത്. ഒരേസമയം ഒരു ദശലക്ഷം വ്യത്യസ്ത പ്രവർത്തനങ്ങൾ ചെയ്യുക എന്നതാണ് ഘടനയുടെ പ്രധാന ലക്ഷ്യം.
സങ്കീർണ്ണമായ ഡാറ്റ മനസ്സിലാക്കുന്നത് മുതൽ ഡിഡക്റ്റീവ് റീസണിംഗ് വരെ എല്ലാം ഇതിൽ ഉൾപ്പെടുന്നു. ഭാഷയിലും ന്യായവാദപരമായ ജോലികളിലും നിലവിലെ AI അത്യാധുനികതയെയും മനുഷ്യരെയും മറികടക്കാനുള്ള കഴിവ് PalM-നുണ്ട്.
ഇതിൽ കുറച്ച്-ഷോട്ട് ലേണിംഗ് ഉൾപ്പെടുന്നു, ഇത് മനുഷ്യർ എങ്ങനെ പുതിയ കാര്യങ്ങൾ പഠിക്കുന്നുവെന്നും വൈവിധ്യമാർന്ന അറിവുകൾ സംയോജിപ്പിച്ച് മുമ്പൊരിക്കലും കണ്ടിട്ടില്ലാത്ത പുതിയ വെല്ലുവിളികളെ നേരിടാൻ സഹായിക്കുന്നു, പുതിയ വെല്ലുവിളികൾ പരിഹരിക്കുന്നതിന് അതിന്റെ എല്ലാ അറിവുകളും ഉപയോഗിക്കാൻ കഴിയുന്ന ഒരു യന്ത്രത്തിന്റെ പ്രയോജനം; PalM-ലെ ഈ വൈദഗ്ധ്യത്തിന്റെ ഒരു ഉദാഹരണം, ഇതുവരെ കേട്ടിട്ടില്ലാത്ത ഒരു തമാശ വിശദീകരിക്കാനുള്ള അതിന്റെ കഴിവാണ്.
ഭാഷാ ഗ്രാഹ്യവും സൃഷ്ടിയും, മൾട്ടിസ്റ്റെപ്പ് അരിത്മെറ്റിക് കോഡുമായി ബന്ധപ്പെട്ട പ്രവർത്തനങ്ങൾ, സാമാന്യബുദ്ധിയുള്ള ന്യായവാദം, വിവർത്തനം എന്നിവയും അതിലേറെയും ഉൾപ്പെടെ വിവിധ വെല്ലുവിളി നിറഞ്ഞ ടാസ്ക്കുകളിൽ പാഎൽഎം നിരവധി മികച്ച കഴിവുകൾ പ്രകടിപ്പിച്ചു.
ബഹുഭാഷാ NLP സെറ്റുകൾ ഉപയോഗിച്ച് സങ്കീർണ്ണമായ പ്രശ്നങ്ങൾ പരിഹരിക്കാനുള്ള കഴിവ് ഇത് തെളിയിച്ചിട്ടുണ്ട്. ലോകമെമ്പാടുമുള്ള സാങ്കേതിക വിപണിയിൽ കാരണവും ഫലവും, ആശയപരമായ കോമ്പിനേഷനുകൾ, വ്യത്യസ്തമായ ഗെയിമുകൾ എന്നിവയും മറ്റ് പല കാര്യങ്ങളും വേർതിരിച്ചറിയാൻ PalM ഉപയോഗിക്കാനാകും.
മൾട്ടിസ്റ്റെപ്പ് ലോജിക്കൽ അനുമാനം, ആഴത്തിലുള്ള ഭാഷ, ആഗോള വിജ്ഞാനം, മറ്റ് സാങ്കേതിക വിദ്യകൾ എന്നിവ ഉപയോഗിച്ച് ഇതിന് നിരവധി സന്ദർഭങ്ങൾക്കായി ആഴത്തിലുള്ള വിശദീകരണങ്ങൾ സൃഷ്ടിക്കാനും കഴിയും.
എങ്ങനെയാണ് Google PalM അൽഗോരിതം വികസിപ്പിച്ചത്?
PalM-ൽ Google-ന്റെ മികച്ച പ്രകടനത്തിന്, പാതകൾ 540 ബില്യൺ പാരാമീറ്ററുകൾ വരെ സ്കെയിൽ ചെയ്യാൻ ഷെഡ്യൂൾ ചെയ്തിട്ടുണ്ട്. നിരവധി ഡൊമെയ്നുകളിലുടനീളം കാര്യക്ഷമമായും ഫലപ്രദമായും സാമാന്യവൽക്കരിക്കാൻ കഴിയുന്ന ഒരു മോഡലായി ഇത് അംഗീകരിക്കപ്പെട്ടിരിക്കുന്നു. ആക്സിലറേറ്ററുകൾക്കായി വിതരണം ചെയ്ത കമ്പ്യൂട്ടിംഗ് വികസിപ്പിക്കുന്നതിനാണ് ഗൂഗിളിലെ പാത്ത്വേകൾ സമർപ്പിച്ചിരിക്കുന്നത്.
പാത്ത്വേസ് സിസ്റ്റം ഉപയോഗിച്ച് പരിശീലിപ്പിച്ച ഡീകോഡർ മാത്രമുള്ള ട്രാൻസ്ഫോർമർ മോഡലാണ് PalM. ഗൂഗിൾ പറയുന്നതനുസരിച്ച്, നിരവധി ജോലിഭാരങ്ങളിലുടനീളം അത്യാധുനികമായ കുറച്ച് ഷോട്ട് പ്രകടനം PalM വിജയകരമായി കൈവരിച്ചു. ആദ്യമായി 6144 ചിപ്പുകൾ എന്നറിയപ്പെടുന്ന ഏറ്റവും വലിയ TPU-അധിഷ്ഠിത സിസ്റ്റം കോൺഫിഗറേഷനിലേക്ക് പരിശീലനം വിപുലീകരിക്കാൻ പാത്ത്വേസ് സിസ്റ്റം ഉപയോഗിച്ചു.
AI-ഭാഷാ മോഡലിനായുള്ള പരിശീലന ഡാറ്റാസെറ്റ് ഇംഗ്ലീഷിന്റെയും മറ്റ് ബഹുഭാഷാ ഡാറ്റാസെറ്റുകളുടെയും മിശ്രിതമാണ്. "നഷ്ടമില്ലാത്ത" പദാവലി ഉപയോഗിച്ച്, അതിൽ ഉയർന്ന നിലവാരമുള്ള വെബ് ഉള്ളടക്കം, ചർച്ചകൾ, പുസ്തകങ്ങൾ, GitHub കോഡ്, വിക്കിപീഡിയ, കൂടാതെ മറ്റു പലതും അടങ്ങിയിരിക്കുന്നു. വൈറ്റ്സ്പെയ്സ് നിലനിർത്തുന്നതിനും പദാവലിയിൽ ഇല്ലാത്ത യൂണികോഡ് പ്രതീകങ്ങളെ ബൈറ്റുകളായി തകർക്കുന്നതിനും ലോസ്ലെസ് പദാവലി അംഗീകരിക്കപ്പെട്ടിരിക്കുന്നു.
ഒരു സ്റ്റാൻഡേർഡ് ട്രാൻസ്ഫോർമർ മോഡൽ ആർക്കിടെക്ചറും SwiGLU ആക്ടിവേഷൻ, പാരലൽ ലെയറുകൾ, RoPE ഉൾച്ചേർക്കൽ, പങ്കിട്ട ഇൻപുട്ട്-ഔട്ട്പുട്ട് ഉൾച്ചേർക്കലുകൾ, മൾട്ടി-ക്വറി ശ്രദ്ധ, കൂടാതെ പക്ഷപാതങ്ങളോ പദാവലിയോ ഇല്ലാത്ത ഒരു ഡീകോഡർ കോൺഫിഗറേഷനും ഉപയോഗിച്ചാണ് Google ഉം Pathways ഉം PalM വികസിപ്പിച്ചത്. മറുവശത്ത്, ഗൂഗിളിന്റെയും പാത്ത്വേസിന്റെയും AI- ഭാഷാ മോഡലിന് ശക്തമായ അടിത്തറ നൽകാൻ PalM തയ്യാറാണ്.
PalM പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കുന്ന പാരാമീറ്ററുകൾ
കഴിഞ്ഞ വർഷം, ഗൂഗിൾ പാത്ത്വേകൾ അവതരിപ്പിച്ചു, അത് ആയിരക്കണക്കിന് അല്ലെങ്കിലും ദശലക്ഷക്കണക്കിന് കാര്യങ്ങൾ ചെയ്യാൻ പരിശീലിപ്പിക്കാൻ കഴിയുന്ന ഒരു മോഡലാണ്- "അടുത്ത തലമുറ AI ആർക്കിടെക്ചർ" എന്ന് വിളിക്കപ്പെട്ടു, കാരണം നിലവിലുള്ള മോഡലുകളുടെ ഒരു കാര്യം മാത്രം പരിശീലിപ്പിക്കാനുള്ള പരിമിതികളെ മറികടക്കാൻ ഇതിന് കഴിയും. . നിലവിലെ മോഡലുകളുടെ കഴിവുകൾ വികസിപ്പിക്കുന്നതിനുപകരം, ഒരു ജോലി പൂർത്തിയാക്കാൻ പുതിയ മോഡലുകൾ പലപ്പോഴും താഴെ നിന്ന് നിർമ്മിക്കപ്പെടുന്നു.
തൽഫലമായി, പതിനായിരക്കണക്കിന് വ്യത്യസ്ത പ്രവർത്തനങ്ങൾക്കായി പതിനായിരക്കണക്കിന് മോഡലുകൾ അവർ സൃഷ്ടിച്ചു. ഇത് സമയമെടുക്കുന്നതും വിഭവശേഷിയുള്ളതുമായ ഒരു ജോലിയാണ്.
പുതിയ ടാസ്ക്കുകൾ കൂടുതൽ വേഗത്തിലും കാര്യക്ഷമമായും പഠിക്കാൻ ഒരൊറ്റ മോഡലിന് വൈവിധ്യമാർന്ന പ്രവർത്തനങ്ങൾ കൈകാര്യം ചെയ്യാനും നിലവിലെ കഴിവുകളെ ആകർഷിക്കാനും സംയോജിപ്പിക്കാനും കഴിയുമെന്ന് പാത്ത്വേകൾ വഴി Google തെളിയിച്ചു.
കാഴ്ച, ഭാഷാപരമായ ധാരണ, ഓഡിറ്ററി പ്രോസസ്സിംഗ് എന്നിവ ഉൾപ്പെടുന്ന മൾട്ടിമോഡൽ മോഡലുകൾ ഒരേ സമയം പാതകളിലൂടെ പ്രവർത്തനക്ഷമമാക്കിയേക്കാം. പാത്ത്വേസ് ലാംഗ്വേജ് മോഡൽ (PaLM) അതിന്റെ 4 ബില്യൺ പാരാമീറ്റർ മോഡലിന് നന്ദി, നിരവധി TPU v540 പോഡുകളിലുടനീളം ഒരൊറ്റ മോഡലിന്റെ പരിശീലനത്തിന് അനുവദിക്കുന്നു.
ഇടതൂർന്ന ഡീകോഡർ മാത്രമുള്ള ട്രാൻസ്ഫോർമർ മോഡലായ PalM, വിപുലമായ ജോലിഭാരങ്ങളിലുടനീളം അത്യാധുനികമായ കുറച്ച്-ഷോട്ട് പ്രകടനത്തെ മറികടക്കുന്നു. ഒരു ഡാറ്റാ സെന്റർ നെറ്റ്വർക്ക് (DCN) വഴി ലിങ്ക് ചെയ്തിരിക്കുന്ന രണ്ട് TPU v4 പോഡുകളിൽ PalM പരിശീലിപ്പിക്കുന്നു.
ഇത് മോഡലിന്റെയും ഡാറ്റാ പാരലലിസത്തിന്റെയും പ്രയോജനം നേടുന്നു. ഗവേഷകർ 3072 ഹോസ്റ്റുകളുമായി ബന്ധിപ്പിച്ചിട്ടുള്ള, PalM-നുള്ള ഓരോ പോഡിലും 4 TPU v768 പ്രോസസറുകൾ ഉപയോഗിച്ചു. ഗവേഷകർ പറയുന്നതനുസരിച്ച്, ഇത് ഇതുവരെ വെളിപ്പെടുത്തിയിട്ടുള്ളതിൽ വച്ച് ഏറ്റവും വലിയ TPU കോൺഫിഗറേഷനാണ്, ഇത് പൈപ്പ്ലൈൻ സമാന്തരത ഉപയോഗിക്കാതെ തന്നെ പരിശീലനം സ്കെയിൽ ചെയ്യാൻ അവരെ അനുവദിക്കുന്നു.
പൊതുവെ ഒരു പൈപ്പ് ലൈനിലൂടെ സിപിയുവിൽ നിന്ന് നിർദ്ദേശങ്ങൾ ശേഖരിക്കുന്ന പ്രക്രിയയാണ് പൈപ്പ് ലൈനിംഗ്. മോഡലിന്റെ പാളികൾ പൈപ്പ്ലൈൻ മോഡൽ പാരലലിസം (അല്ലെങ്കിൽ പൈപ്പ്ലൈൻ പാരലലിസം) വഴി സമാന്തരമായി പ്രോസസ്സ് ചെയ്യാൻ കഴിയുന്ന ഘട്ടങ്ങളായി തിരിച്ചിരിക്കുന്നു.
ഒരു മൈക്രോ ബാച്ചിനുള്ള ഫോർവേഡ് പാസ് പൂർത്തിയാക്കുമ്പോൾ ആക്ടിവേഷൻ മെമ്മറി അടുത്ത ഘട്ടത്തിലേക്ക് അയയ്ക്കും. തുടർന്നുള്ള ഘട്ടം അതിന്റെ പിന്നോക്ക പ്രചരണം പൂർത്തിയാക്കുമ്പോൾ ഗ്രേഡിയന്റുകൾ പിന്നിലേക്ക് അയയ്ക്കുന്നു.
PalM ബ്രേക്ക്ത്രൂ കഴിവുകൾ
ബുദ്ധിമുട്ടുള്ള ജോലികളുടെ ഒരു ശ്രേണിയിൽ തകർപ്പൻ കഴിവുകൾ PalM പ്രദർശിപ്പിക്കുന്നു. നിരവധി ഉദാഹരണങ്ങൾ ഇതാ:
1. ഭാഷാ നിർമ്മാണവും മനസ്സിലാക്കലും
ഇംഗ്ലീഷിൽ 29 വ്യത്യസ്ത NLP ടാസ്ക്കുകളിൽ PalM പരീക്ഷിച്ചു.
കുറച്ച്-ഷോട്ട് അടിസ്ഥാനത്തിൽ, ഓപ്പൺ-ഡൊമെയ്ൻ ക്ലോസ്ഡ്-ബുക്ക് വേരിയന്റ് ചോദ്യോത്തര ടാസ്ക്കുകൾ ഉൾപ്പെടെ 540 ടാസ്ക്കുകളിൽ 3 എണ്ണത്തിൽ GLaM, GPT-28, Megatron-Turing NLG, Gopher, Chinchilla, LaMDA തുടങ്ങിയ മുൻ വലിയ മോഡലുകളെ മറികടന്ന് PalM 29B മികച്ച പ്രകടനം കാഴ്ചവച്ചു. , ക്ലോസ്, വാക്യം പൂർത്തിയാക്കൽ ടാസ്ക്കുകൾ, വിനോഗ്രാഡ് ശൈലിയിലുള്ള ടാസ്ക്കുകൾ, ഇൻ-കോൺക്സ്റ്റ് റീഡിംഗ് കോംപ്രഹെൻഷൻ ടാസ്ക്കുകൾ, കോമൺസെൻസ് റീസണിംഗ് ടാസ്ക്കുകൾ, സൂപ്പർഗ്ലൂ ടാസ്ക്കുകൾ, സ്വാഭാവിക അനുമാനം.
നിരവധി ബിഗ്-ബെഞ്ച് ടാസ്ക്കുകളിൽ, മികച്ച സ്വാഭാവിക ഭാഷാ വ്യാഖ്യാനവും ജനറേഷൻ കഴിവുകളും PalM പ്രകടമാക്കുന്നു. ഉദാഹരണത്തിന്, മോഡലിന് കാരണവും ഫലവും തമ്മിൽ വേർതിരിച്ചറിയാനും ചില സാഹചര്യങ്ങളിൽ ആശയ സംയോജനം മനസ്സിലാക്കാനും ഒരു ഇമോജിയിൽ നിന്ന് സിനിമ ഊഹിക്കാനും കഴിയും. പരിശീലന കോർപ്പസിന്റെ 22% ഇംഗ്ലീഷ് അല്ലെങ്കിലും, ഇംഗ്ലീഷ് എൻഎൽപി ടാസ്ക്കുകൾക്ക് പുറമേ വിവർത്തനം ഉൾപ്പെടെയുള്ള ബഹുഭാഷാ എൻഎൽപി മാനദണ്ഡങ്ങളിലും പാൽഎം മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു.
2. ന്യായവാദം
മൾട്ടിസ്റ്റെപ്പ് അരിത്മെറ്റിക് അല്ലെങ്കിൽ കോമൺസെൻസ് ന്യായവാദം ആവശ്യമായ യുക്തിസഹമായ വെല്ലുവിളികളെക്കുറിച്ചുള്ള മികച്ച കഴിവുകൾ പ്രകടിപ്പിക്കാൻ പ്രേരിപ്പിക്കുന്ന ചെയിൻ-ഓഫ്-ചിന്തയുമായി PalM മോഡൽ വലുപ്പം സമന്വയിപ്പിക്കുന്നു.
പ്രകടനം വർധിപ്പിക്കുന്നതിന്റെ കാര്യത്തിൽ, ഗോഫർ പോലെയുള്ള മുൻ LLM-കൾക്ക് മോഡൽ വലുപ്പത്തിൽ നിന്ന് കുറച്ച് പ്രയോജനം ലഭിച്ചു. ചെയിൻ-ഓഫ്-തോട്ട് പ്രോംപ്റ്റിംഗുള്ള PalM 540B മൂന്ന് ഗണിതത്തിലും രണ്ട് കോമൺസെൻസ് തിങ്കിംഗ് ഡാറ്റാസെറ്റുകളിലും നന്നായി പ്രവർത്തിച്ചു.
55 പ്രശ്നങ്ങളുടെ പരിശീലന സെറ്റ് ഉപയോഗിച്ച് GPT-3 175B മോഡലിനെ മികച്ച രീതിയിൽ ട്യൂൺ ചെയ്ത് ഒരു എക്സ്റ്റേണൽ കാൽക്കുലേറ്ററും വെരിഫയറും സംയോജിപ്പിച്ച് GSM7500K-യിലെ 58 ശതമാനം പ്രശ്നങ്ങളും പരിഹരിച്ചുകൊണ്ട് ലഭിച്ച 8% മുമ്പത്തെ മികച്ച സ്കോറാണ് PalM മറികടന്നത്. 8-ഷോട്ട് പ്രോംപ്റ്റിംഗ് ഉപയോഗിച്ച് ബുദ്ധിമുട്ടുള്ള ആയിരക്കണക്കിന് ഗ്രേഡ് സ്കൂൾ ലെവൽ ഗണിത ചോദ്യങ്ങളുടെ മാനദണ്ഡം.
ഈ പുതിയ സ്കോർ പ്രത്യേകിച്ചും ശ്രദ്ധേയമാണ്, കാരണം ഇത് 60-9 വയസ് പ്രായമുള്ള കുട്ടികൾ അനുഭവിക്കുന്ന പ്രതിബന്ധങ്ങളുടെ ശരാശരി 12% ആണ്. ഇന്റർനെറ്റിൽ ലഭ്യമല്ലാത്ത യഥാർത്ഥ തമാശകളോടും ഇതിന് പ്രതികരിക്കാനാകും.
3. കോഡ് ജനറേഷൻ
സ്വാഭാവിക ഭാഷാ വിവരണത്തിൽ നിന്ന് (ടെക്സ്റ്റ്-ടു-കോഡ്), ഭാഷകൾക്കിടയിൽ കോഡ് വിവർത്തനം ചെയ്യുക, സമാഹരണ പിശകുകൾ പരിഹരിക്കൽ എന്നിവ ഉൾപ്പെടെയുള്ള കോഡിംഗ് ജോലികളിലും LLM-കൾ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നതായി കാണിച്ചു. പ്രീ-ട്രെയിനിംഗ് ഡാറ്റാസെറ്റിൽ 5% കോഡ് മാത്രമേ ഉള്ളൂവെങ്കിലും, ഒരു മോഡലിൽ കോഡിംഗിലും സ്വാഭാവിക ഭാഷാ ജോലികളിലും PalM 540B മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു.
12 മടങ്ങ് കുറവ് പൈത്തൺ കോഡ് ഉപയോഗിച്ച് പരിശീലനം നടത്തുമ്പോൾ, മികച്ച ട്യൂൺ ചെയ്ത കോഡെക്സ് 50B-യുമായി പൊരുത്തപ്പെടുന്നതിനാൽ, അതിന്റെ കുറച്ച്-ഷോട്ട് പ്രകടനം അവിശ്വസനീയമാണ്. ചെറിയ മോഡലുകളേക്കാൾ വലിയ മോഡലുകൾക്ക് കൂടുതൽ സാമ്പിൾ കാര്യക്ഷമതയുണ്ടാകുമെന്ന മുൻകണ്ടെത്തലുകളോട് ഈ കണ്ടെത്തൽ പിന്നോക്കം നിൽക്കുന്നു, കാരണം അവയ്ക്ക് ഒന്നിലധികം പഠനങ്ങൾ കൂടുതൽ ഫലപ്രദമായി കൈമാറാൻ കഴിയും. പ്രോഗ്രാമിങ് ഭാഷകൾ കൂടാതെ പ്ലെയിൻ ഭാഷാ ഡാറ്റയും.
തീരുമാനം
4 ബില്യൺ പാരാമീറ്റർ മോഡൽ നന്നായി പഠിച്ച് നന്നായി സ്ഥാപിതമായ സാന്ദ്രമായ ഡീകോഡർ മാത്രമുള്ള ട്രാൻസ്ഫോർമർ മോഡലിനെ ഫലപ്രദമായി പരിശീലിപ്പിച്ചുകൊണ്ട് രണ്ട് TPU v540 പോഡുകളിൽ ആയിരക്കണക്കിന് ആക്സിലറേറ്റർ പ്രോസസറുകളിലേക്ക് സ്കെയിൽ ചെയ്യാനുള്ള പാത്ത്വേസ് സിസ്റ്റത്തിന്റെ കഴിവ് PalM കാണിക്കുന്നു.
മോഡൽ സ്കെയിലിന്റെ അതിരുകൾ ഭേദിച്ച് സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗ്, ന്യായവാദം, കോഡിംഗ് വെല്ലുവിളികൾ എന്നിവയിലുടനീളം ഇത് കുറച്ച്-ഷോട്ട് പ്രകടനം കൈവരിക്കുന്നു.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക