મોટા ન્યુરલ નેટવર્ક્સ કે જેને ભાષા ઓળખ અને પેઢી માટે તાલીમ આપવામાં આવી છે તેણે તાજેતરના વર્ષોમાં વિવિધ કાર્યોમાં ઉત્કૃષ્ટ પરિણામો દર્શાવ્યા છે. GPT-3 એ સાબિત કર્યું કે મોટા ભાષાના મોડલ (LLM) નો ઉપયોગ થોડા-શૉટ લર્નિંગ માટે થઈ શકે છે અને વ્યાપક કાર્ય-વિશિષ્ટ ડેટા અથવા મોડલ પરિમાણો બદલ્યા વિના ઉત્તમ પરિણામો પ્રાપ્ત કરી શકાય છે.
Google, સિલિકોન વેલી ટેક બેહેમથ, એ PaLM, અથવા પાથવેઝ લેંગ્વેજ મોડલ, નેક્સ્ટ જનરેશન AI-ભાષા મોડલ તરીકે વિશ્વવ્યાપી ટેક ઉદ્યોગમાં રજૂ કર્યું છે. ગૂગલે એક નવું સામેલ કર્યું છે કૃત્રિમ બુદ્ધિ AI-ભાષા મોડલની ગુણવત્તા સુધારવાના વ્યૂહાત્મક ઉદ્દેશ્ય સાથે PaLM માં આર્કિટેક્ચર.
આ પોસ્ટમાં, અમે પામ અલ્ગોરિધમનું વિગતવાર પરીક્ષણ કરીશું, જેમાં તેને તાલીમ આપવા માટે વપરાતા પરિમાણો, તે જે સમસ્યાનું નિરાકરણ લાવે છે અને ઘણું બધું સામેલ છે.
શું છે Google નું PaLM અલ્ગોરિધમ?
પાથવેઝ લેંગ્વેજ મોડલ શું છે PaLM માટે વપરાય છે. આ પાથવેઝ એઆઈ આર્કિટેક્ચરને મજબૂત કરવા માટે Google દ્વારા વિકસિત એક નવું અલ્ગોરિધમ છે. બંધારણનું મુખ્ય ધ્યેય એક સાથે એક મિલિયન અલગ-અલગ પ્રવૃત્તિઓ કરવાનું છે.
આમાં જટિલ ડેટાને સમજવાથી માંડીને અનુમાનિત તર્ક સુધી બધું જ શામેલ છે. PaLM પાસે ભાષા અને તર્કના કાર્યોમાં વર્તમાન AI અત્યાધુનિક તેમજ મનુષ્યોને વટાવી જવાની ક્ષમતા છે.
આમાં ફ્યુ-શોટ લર્નિંગનો સમાવેશ થાય છે, જે નકલ કરે છે કે મનુષ્ય કેવી રીતે નવી વસ્તુઓ શીખે છે અને નવા પડકારોનો સામનો કરવા માટે જ્ઞાનના વિવિધ બિટ્સને જોડે છે જે પહેલાં ક્યારેય જોવામાં આવ્યા નથી, એક મશીનના ફાયદા સાથે જે તેના તમામ જ્ઞાનનો ઉપયોગ નવા પડકારોને ઉકેલવા માટે કરી શકે છે; PaLM માં આ કૌશલ્યનું એક ઉદાહરણ તે પહેલાં ક્યારેય સાંભળ્યું ન હોય તેવા જોકને સમજાવવાની તેની ક્ષમતા છે.
PaLM એ ભાષાની સમજણ અને સર્જન, મલ્ટિસ્ટેપ અંકગણિત કોડ-સંબંધિત પ્રવૃત્તિઓ, સામાન્ય-જ્ઞાન તર્ક, અનુવાદ અને ઘણા બધા સહિત વિવિધ પડકારજનક કાર્યો પર ઘણી પ્રગતિશીલ કુશળતા દર્શાવી.
તેણે બહુભાષી NLP સેટનો ઉપયોગ કરીને જટિલ મુદ્દાઓને ઉકેલવાની તેની ક્ષમતા દર્શાવી છે. PaLM નો ઉપયોગ વિશ્વવ્યાપી ટેક માર્કેટ દ્વારા કારણ અને અસર, વૈચારિક સંયોજનો, વિશિષ્ટ રમતો અને અન્ય ઘણી વસ્તુઓને અલગ પાડવા માટે કરી શકાય છે.
તે મલ્ટિસ્ટેપ લોજિકલ ઇન્ફરન્સ, ઊંડી ભાષા, વૈશ્વિક જ્ઞાન અને અન્ય તકનીકોનો ઉપયોગ કરીને ઘણા સંદર્ભો માટે ઊંડાણપૂર્વકની સમજૂતી પણ જનરેટ કરી શકે છે.
Google એ PaLM અલ્ગોરિધમ કેવી રીતે વિકસાવ્યું?
PaLM માં Google ના પ્રગતિશીલ પ્રદર્શન માટે, પાથવે 540 બિલિયન પરિમાણો સુધી સ્કેલ કરવા માટે સુનિશ્ચિત થયેલ છે. તે એક મોડેલ તરીકે ઓળખાય છે જે અસંખ્ય ડોમેન્સમાં કાર્યક્ષમ અને અસરકારક રીતે સામાન્યીકરણ કરી શકે છે. Google પર પાથવેઝ એક્સિલરેટર્સ માટે વિતરિત કમ્પ્યુટિંગ વિકસાવવા માટે સમર્પિત છે.
PaLM એ ડીકોડર-માત્ર ટ્રાન્સફોર્મર મોડલ છે જેને પાથવે સિસ્ટમનો ઉપયોગ કરીને તાલીમ આપવામાં આવી છે. Googleના જણાવ્યા મુજબ, PaLM એ ઘણા વર્કલોડમાં અત્યાધુનિક થોડા-શોટ પ્રદર્શન સફળતાપૂર્વક હાંસલ કર્યા છે. PaLM એ સૌથી મોટા TPU-આધારિત સિસ્ટમ રૂપરેખાંકન માટે તાલીમને વિસ્તૃત કરવા માટે પાથવે સિસ્ટમનો ઉપયોગ કર્યો છે, જે પ્રથમ વખત 6144 ચિપ્સ તરીકે ઓળખાય છે.
AI-ભાષા મોડેલ માટે તાલીમ ડેટાસેટ અંગ્રેજી અને અન્ય બહુભાષી ડેટાસેટ્સના મિશ્રણથી બનેલો છે. "લોસલેસ" શબ્દભંડોળ સાથે, તેમાં ઉચ્ચ-ગુણવત્તાવાળી વેબ સામગ્રી, ચર્ચાઓ, પુસ્તકો, GitHub કોડ, વિકિપીડિયા અને ઘણું બધું છે. લોસલેસ શબ્દભંડોળને વ્હાઇટસ્પેસ જાળવી રાખવા અને શબ્દભંડોળમાં ન હોય તેવા યુનિકોડ અક્ષરોને બાઇટમાં તોડવા માટે ઓળખવામાં આવે છે.
PaLM ને Google અને Pathways દ્વારા સ્ટાન્ડર્ડ ટ્રાન્સફોર્મર મોડલ આર્કિટેક્ચર અને ડીકોડર રૂપરેખાંકનનો ઉપયોગ કરીને વિકસાવવામાં આવ્યું હતું જેમાં SwiGLU એક્ટિવેશન, સમાંતર સ્તરો, RoPE એમ્બેડિંગ્સ, શેર કરેલ ઇનપુટ-આઉટપુટ એમ્બેડિંગ્સ, મલ્ટી-ક્વેરી ધ્યાન અને કોઈ પક્ષપાત અથવા શબ્દભંડોળનો સમાવેશ થતો નથી. બીજી તરફ, PaLM, Google અને Pathways ના AI-ભાષા મોડલ માટે નક્કર આધાર પૂરો પાડવા માટે તૈયાર છે.
PaLM ને તાલીમ આપવા માટે વપરાતા પરિમાણો
ગયા વર્ષે, Google એ પાથવેઝ લૉન્ચ કર્યું, એક મોડેલ કે જે લાખો નહીં તો હજારો વસ્તુઓ કરવા માટે પ્રશિક્ષિત થઈ શકે છે-જેને "નેક્સ્ટ જનરેશન AI આર્કિટેક્ચર" તરીકે ઓળખવામાં આવે છે કારણ કે તે માત્ર એક જ વસ્તુ કરવા માટે પ્રશિક્ષિત હોવાના હાલના મોડલ્સની મર્યાદાઓને દૂર કરી શકે છે. . વર્તમાન મોડલ્સની ક્ષમતાઓને વિસ્તૃત કરવાને બદલે, એક જ કાર્યને પૂર્ણ કરવા માટે નવા મોડલ્સ ઘણીવાર નીચેથી ઉપર બનાવવામાં આવે છે.
પરિણામે, તેઓએ હજારો વિવિધ પ્રવૃત્તિઓ માટે હજારો મોડેલો બનાવ્યાં છે. આ એક સમય માંગી લેતું અને સંસાધન-સઘન કાર્ય છે.
Google એ પાથવેઝ દ્વારા સાબિત કર્યું કે એક જ મોડેલ વિવિધ પ્રકારની પ્રવૃત્તિઓને હેન્ડલ કરી શકે છે અને નવા કાર્યોને વધુ ઝડપથી અને અસરકારક રીતે શીખવા માટે વર્તમાન પ્રતિભાઓને આકર્ષિત કરી શકે છે.
મલ્ટિમોડલ મોડલ્સ જેમાં દ્રષ્ટિ, ભાષાકીય સમજણ અને શ્રાવ્ય પ્રક્રિયાનો સમાવેશ થાય છે તે બધા એક જ સમયે પાથવે દ્વારા સક્ષમ થઈ શકે છે. પાથવેઝ લેંગ્વેજ મોડલ (PaLM) તેના 4 બિલિયન પેરામીટર મોડલને આભારી અસંખ્ય TPU v540 પોડ્સમાં એક જ મોડેલની તાલીમ માટે પરવાનગી આપે છે.
PaLM, એક ગાઢ ડીકોડર-ઓન્લી ટ્રાન્સફોર્મર મોડલ, વર્કલોડની વિશાળ શ્રેણીમાં અદ્યતન-આર્ટ થોડા-શૉટ પ્રદર્શનને આઉટપરફોર્મ કરે છે. PaLM ને બે TPU v4 Pods પર તાલીમ આપવામાં આવી રહી છે જે ડેટા સેન્ટર નેટવર્ક (DCN) દ્વારા જોડાયેલા છે.
તે મોડેલ અને ડેટા સમાનતા બંનેનો લાભ લે છે. સંશોધકોએ PaLM માટે દરેક પોડમાં 3072 TPU v4 પ્રોસેસર્સનો ઉપયોગ કર્યો હતો, જે 768 હોસ્ટ સાથે જોડાયેલા હતા. સંશોધકોના મતે, આ સૌથી મોટું TPU રૂપરેખાંકન છે જે હજુ સુધી જાહેર કરવામાં આવ્યું છે, જે તેમને પાઈપલાઈન સમાંતરતાનો ઉપયોગ કર્યા વિના તાલીમને સ્કેલ કરવાની મંજૂરી આપે છે.
પાઇપ લાઇનિંગ એ સામાન્ય રીતે પાઇપલાઇન દ્વારા CPU માંથી સૂચનાઓ એકત્ર કરવાની પ્રક્રિયા છે. મોડેલના સ્તરોને તબક્કામાં વિભાજિત કરવામાં આવે છે જે પાઇપલાઇન મોડલ સમાંતર (અથવા પાઇપલાઇન સમાંતર) દ્વારા સમાંતર પ્રક્રિયા કરી શકાય છે.
જ્યારે એક તબક્કો માઇક્રો-બેચ માટે ફોરવર્ડ પાસ પૂર્ણ કરે છે ત્યારે સક્રિયકરણ મેમરીને આગલા પગલા પર મોકલવામાં આવે છે. જ્યારે નીચેનો તબક્કો તેનો પછાત પ્રચાર પૂર્ણ કરે છે ત્યારે ઢાળને પાછળની તરફ મોકલવામાં આવે છે.
PaLM બ્રેકથ્રુ ક્ષમતાઓ
PaLM મુશ્કેલ કાર્યોની શ્રેણીમાં ગ્રાઉન્ડ બ્રેકિંગ ક્ષમતાઓ દર્શાવે છે. અહીં કેટલાક ઉદાહરણો છે:
1. ભાષાની રચના અને સમજ
PaLM ને અંગ્રેજીમાં 29 વિવિધ NLP કાર્યો પર પરીક્ષણ માટે મૂકવામાં આવ્યું હતું.
થોડા-શૉટ આધારે, PaLM 540B એ 3 માંથી 28 કાર્યો પર GLaM, GPT-29, Megatron-Turing NLG, ગોફર, ચિનચિલા અને LaMDA જેવા અગાઉના મોટા મોડલને પાછળ રાખી દીધા હતા, જેમાં ઓપન-ડોમેન ક્લોઝ્ડ-બુક વેરિઅન્ટ પ્રશ્ન-જવાબ કાર્યોનો સમાવેશ થાય છે. , ક્લોઝ અને વાક્ય-સંપૂર્ણતા કાર્યો, વિનોગ્રાડ-શૈલીના કાર્યો, સંદર્ભમાં વાંચન સમજણ કાર્યો, કોમનસેન્સ રિઝનિંગ કાર્યો, સુપરગ્લુઇ કાર્યો અને કુદરતી અનુમાન.
કેટલાક BIG-બેન્ચ કાર્યો પર, PaLM ઉત્તમ કુદરતી ભાષા અર્થઘટન અને પેઢી કૌશલ્ય દર્શાવે છે. ઉદાહરણ તરીકે, મોડેલ કારણ અને અસર વચ્ચે તફાવત કરી શકે છે, અમુક પરિસ્થિતિઓમાં વૈચારિક સંયોજનોને સમજી શકે છે અને ઇમોજી પરથી મૂવીનું અનુમાન પણ કરી શકે છે. તાલીમ ભંડોળનો માત્ર 22% નોન-અંગ્રેજી હોવા છતાં, PaLM અંગ્રેજી NLP કાર્યો ઉપરાંત અનુવાદ સહિત બહુભાષી NLP બેન્ચમાર્ક પર સારું પ્રદર્શન કરે છે.
2. તર્ક
PaLM મલ્ટિ-સ્ટેપ અંકગણિત અથવા કોમનસેન્સ તર્કની જરૂર હોય તેવા તર્કના પડકારો પર પ્રગતિશીલ કૌશલ્યો દર્શાવવા માટે પ્રોમ્પ્ટિંગ ચેન-ઓફ-થોટ સાથે મોડેલ કદને મિશ્રિત કરે છે.
અગાઉના એલએલએમ, જેમ કે ગોફર, પ્રદર્શનને વધારવાના સંદર્ભમાં મોડલના કદથી ઓછો ફાયદો થયો હતો. સાંકળ-ઓફ-થોટ પ્રોમ્પ્ટિંગ સાથે PaLM 540B એ ત્રણ અંકગણિત અને બે કોમનસેન્સ થિંકિંગ ડેટાસેટ્સ પર સારું પ્રદર્શન કર્યું.
PaLM એ 55% ના અગાઉના શ્રેષ્ઠ સ્કોર કરતાં વધુ પ્રદર્શન કરે છે, જે GPT-3 175B મોડેલને 7500 સમસ્યાઓના તાલીમ સમૂહ સાથે ફાઇન-ટ્યુનિંગ કરીને અને GSM58K માં 8 ટકા સમસ્યાઓને ઉકેલવા માટે બાહ્ય કેલ્ક્યુલેટર અને વેરિફાયર સાથે સંયોજિત કરીને મેળવવામાં આવ્યું હતું. 8-શોટ પ્રોમ્પ્ટીંગનો ઉપયોગ કરીને હજારો મુશ્કેલ ગ્રેડ શાળા સ્તરના ગણિતના પ્રશ્નોનો બેન્ચમાર્ક.
આ નવો સ્કોર ખાસ કરીને નોંધનીય છે કારણ કે તે 60-9 વર્ષની વયના બાળકો દ્વારા અનુભવાતા અવરોધોના 12% સરેરાશ સુધી પહોંચે છે. તે ઇન્ટરનેટ પર ઉપલબ્ધ ન હોય તેવા મૂળ જોક્સનો પણ જવાબ આપી શકે છે.
3. કોડ જનરેશન
LLM ને પ્રાકૃતિક ભાષાના વર્ણન (ટેક્સ્ટ-ટુ-કોડ)માંથી કોડ જનરેટ કરવા, ભાષાઓ વચ્ચે કોડનો અનુવાદ કરવા અને સંકલન ભૂલોને ઉકેલવા સહિત કોડિંગ કાર્યોમાં સારી કામગીરી દર્શાવવામાં આવી છે. પ્રી-ટ્રેનિંગ ડેટાસેટમાં માત્ર 5% કોડ હોવા છતાં, PaLM 540B એક જ મોડેલમાં કોડિંગ અને પ્રાકૃતિક ભાષા બંને કાર્યો પર સારું પ્રદર્શન કરે છે.
તેનું થોડા-શૉટ પર્ફોર્મન્સ અદ્ભુત છે, કારણ કે તે 12 ગણા ઓછા પાયથોન કોડ સાથે પ્રશિક્ષણ કરતી વખતે ફાઇન-ટ્યુન્ડ કોડેક્સ 50B સાથે મેળ ખાય છે. આ શોધ અગાઉના તારણોને સમર્થન આપે છે કે મોટા મોડલ નાના મોડલ કરતાં વધુ નમૂના કાર્યક્ષમ હોઈ શકે છે કારણ કે તેઓ બહુવિધમાંથી શીખવાનું વધુ અસરકારક રીતે સ્થાનાંતરિત કરી શકે છે. પ્રોગ્રામિંગ ભાષાઓ અને સાદી ભાષાનો ડેટા.
ઉપસંહાર
PaLM એક ગાઢ ડીકોડર-ઓન્લી ટ્રાન્સફોર્મર મોડલની સારી રીતે અભ્યાસ કરેલ, સુસ્થાપિત રેસીપી સાથે 4-બિલિયન પેરામીટર મોડલને અસરકારક રીતે તાલીમ આપીને બે TPU v540 પોડ્સ પર હજારો એક્સિલરેટર પ્રોસેસર્સને સ્કેલ કરવાની પાથવે સિસ્ટમની ક્ષમતા દર્શાવે છે.
તે મોડેલ સ્કેલની સીમાઓને આગળ ધપાવીને કુદરતી ભાષાની પ્રક્રિયા, તર્ક અને કોડિંગ પડકારોની શ્રેણીમાં થોડા-શૉટ પર્ફોર્મન્સને સિદ્ધ કરે છે.
એક જવાબ છોડો