ለቋንቋ እውቅና እና ትውልድ የሰለጠኑ ትልልቅ የነርቭ አውታሮች ከቅርብ ዓመታት ወዲህ በተለያዩ ተግባራት የላቀ ውጤት አሳይተዋል። GPT-3 ትላልቅ የቋንቋ ሞዴሎች (LLMs) ለጥቂቶች ትምህርት አገልግሎት እንደሚውሉ እና ሰፊ ተግባር-ተኮር መረጃን ሳይጠይቁ ወይም የሞዴል መለኪያዎችን ሳይቀይሩ ጥሩ ውጤቶችን ሊያገኙ እንደሚችሉ አረጋግጧል።
ጎግል፣ የሲሊኮን ቫሊ ቴክ ቤሄሞት፣ ፓልኤም ወይም ፓትዌይስ የቋንቋ ሞዴልን ለአለም አቀፉ የቴክኖሎጂ ኢንዱስትሪ እንደ ቀጣዩ ትውልድ AI-ቋንቋ ሞዴል አስተዋውቋል። ጎግል አዲስ አካቷል። ሰው ሰራሽ እውቀት አርክቴክቸር ወደ ፓልም ከስልታዊ አላማዎች ጋር የ AI-ቋንቋ ሞዴልን ጥራት ለማሻሻል።
በዚህ ልጥፍ ውስጥ፣ እሱን ለማሰልጠን የሚያገለግሉ መለኪያዎችን፣ የሚፈታውን ጉዳይ እና ሌሎችንም ጨምሮ የፓልም አልጎሪዝምን በዝርዝር እንመረምራለን።
ምንድነው የጉግል ፓልም አልጎሪዝም?
ዱካዎች የቋንቋ ሞዴል ምንድን ነው ፓልም የሚወከለው. ይህ የPathways AI አርክቴክቸርን ለማጠናከር በGoogle የተሰራ አዲስ አልጎሪዝም ነው። የመዋቅሩ ዋና ግብ አንድ ሚሊዮን የተለያዩ ተግባራትን በአንድ ጊዜ ማከናወን ነው።
እነዚህ ውስብስብ መረጃዎችን ከመፍታታት ጀምሮ እስከ ተቀናሽ ምክንያታዊነት ድረስ ሁሉንም ያካትታሉ። ፓኤልኤም አሁን ካለው የኤአይአይ እጅግ በጣም ዘመናዊ እና ከሰዎች በቋንቋ እና በማመዛዘን ተግባራት የመብለጥ ችሎታ አለው።
ይህ ጥቂት-ሾት ትምህርትን ያጠቃልላል፣ ይህም የሰው ልጅ አዳዲስ ነገሮችን እንዴት እንደሚማር እና የተለያዩ እውቀቶችን በማጣመር ከዚህ በፊት ታይተው የማያውቁ አዳዲስ ፈተናዎችን ለመቅረፍ፣ ሁሉንም እውቀቱን ተጠቅሞ አዳዲስ ፈተናዎችን ለመፍታት በሚያስችለው ማሽን ጥቅም ላይ ይውላል። በፓልም ውስጥ የዚህ ክህሎት አንዱ ምሳሌ ከዚህ በፊት ሰምቶት የማያውቀውን ቀልድ የማስረዳት ችሎታው ነው።
ፓኤልኤም የቋንቋ ግንዛቤን እና አፈጣጠርን፣ ባለብዙ እርከን የሂሳብ ኮድ-ነክ ተግባራትን፣ የጋራ አስተሳሰብን ፣ ትርጉምን እና ሌሎችንም ጨምሮ በተለያዩ ፈታኝ ስራዎች ላይ ብዙ የማሻሻያ ክህሎቶችን አሳይቷል።
ባለብዙ ቋንቋ NLP ስብስቦችን በመጠቀም የተወሳሰቡ ጉዳዮችን የመፍታት ችሎታውን አሳይቷል። PaLM በአለም አቀፍ የቴክኖሎጂ ገበያ ምክንያት እና ውጤትን፣ ሃሳባዊ ውህደቶችን፣ የተለያዩ ጨዋታዎችን እና ሌሎች ብዙ ነገሮችን ለመለየት ሊጠቀምበት ይችላል።
እንዲሁም ባለብዙ ደረጃ አመክንዮአዊ ግንዛቤን፣ ጥልቅ ቋንቋን፣ ዓለም አቀፋዊ እውቀትን እና ሌሎች ቴክኒኮችን በመጠቀም ለብዙ አውዶች ጥልቅ ማብራሪያዎችን መፍጠር ይችላል።
ጉግል የPaLM አልጎሪዝምን እንዴት አዘጋጀው?
በPaLM ውስጥ የጎግል ግስጋሴ አፈጻጸም፣ ዱካዎች እስከ 540 ቢሊየን መለኪያዎችን ለማስፋት ታቅደዋል። በበርካታ ጎራዎች ውስጥ በብቃት እና በብቃት ማጠቃለል የሚችል እንደ አንዱ ሞዴል ይታወቃል። በGoogle ላይ ያሉ ዱካዎች ለፍጥነት ሰሪዎች የተከፋፈለ ኮምፒውተርን ለማዳበር የተሰጡ ናቸው።
ፓልኤም የመንገዶች ስርዓትን በመጠቀም የሰለጠነ ዲኮደር-ብቻ ትራንስፎርመር ሞዴል ነው። Google እንደገለጸው ፓኤልኤም በበርካታ የስራ ጫናዎች ውስጥ እጅግ በጣም ዘመናዊ የሆነ የጥቂት ተኩስ አፈጻጸም በተሳካ ሁኔታ አስመዝግቧል። PaLM ለመጀመሪያ ጊዜ 6144 ቺፖች ተብሎ ወደሚታወቀው ትልቁ TPU-ተኮር የስርዓት ውቅር ለማስፋፋት የPathways ሲስተምን ተጠቅሟል።
የ AI-ቋንቋ ሞዴል የሥልጠና ዳታ ስብስብ የእንግሊዝኛ እና ሌሎች የብዝሃ ቋንቋ የመረጃ ስብስቦችን ያቀፈ ነው። በ"ኪሳራ" መዝገበ ቃላት፣ ከፍተኛ ጥራት ያለው የድር ይዘትን፣ ውይይቶችን፣ መጽሃፎችን፣ GitHub ኮድን፣ ዊኪፔዲያን እና ሌሎችንም ይዟል። ኪሳራ የሌለው የቃላት ዝርዝር ነጭ ቦታን በመያዝ እና በቃላት ዝርዝር ውስጥ የሌሉትን የዩኒኮድ ቁምፊዎችን ወደ ባይት በመስበር ይታወቃል።
PaLM በGoogle እና Pathways የተሰራው መደበኛ የትራንስፎርመር ሞዴል አርክቴክቸር እና የዲኮደር ውቅር SwiGLU Activation፣ ትይዩ ንብርብሮች፣ የRoPE መክተቻዎች፣ የጋራ የግብአት-ውፅዓት መክተቻዎች፣ ባለብዙ መጠይቅ ትኩረት እና ምንም አድልዎ ወይም የቃላት ዝርዝርን ያካትታል። በሌላ በኩል ፓልኤም ለጎግል እና ለፓትዌይስ AI-ቋንቋ ሞዴል ጠንካራ መሰረት ለመስጠት ዝግጁ ነው።
PaLMን ለማሰልጠን የሚያገለግሉ መለኪያዎች
ባለፈው አመት ጎግል ፓይዌይስ የተባለውን ነጠላ ሞዴል በሺህዎች ፣ ካልሆነ በሚሊዮን የሚቆጠሩ ነገሮችን መስራት ይችላል—“ቀጣዩ ትውልድ AI አርኪቴክቸር” የሚል ስያሜ የተሰጠው ነባር ሞዴሎችን አንድ ነገር ብቻ ለመስራት የሰለጠነባቸውን ውስንነቶች ማሸነፍ ስለሚችል ነው። . የአሁኑን ሞዴሎች አቅም ከማስፋት ይልቅ አዲስ ሞዴሎች ብዙውን ጊዜ አንድ ሥራ ለማከናወን ከታች ወደ ላይ ይገነባሉ.
በውጤቱም, በአስር ሺዎች ለሚቆጠሩ የተለያዩ እንቅስቃሴዎች በአስር ሺዎች የሚቆጠሩ ሞዴሎችን ፈጥረዋል. ይህ ጊዜ የሚወስድ እና ሀብትን የሚጠይቅ ተግባር ነው።
ጎግል አንድ ሞዴል የተለያዩ እንቅስቃሴዎችን ማስተናገድ እና አዳዲስ ስራዎችን በፍጥነት እና በብቃት ለመማር የአሁኑን ችሎታዎች መሳል እና ማጣመር እንደሚችል በPathways በኩል አረጋግጧል።
ራዕይን፣ የቋንቋ ግንዛቤን እና የመስማትን ሂደትን የሚያካትቱ መልቲሞዳል ሞዴሎች በመንገዶች በኩል ሊነቁ ይችላሉ። የPathways Language Model (PaLM) ለ 4 ቢሊዮን መለኪያ ሞዴል ምስጋና ይግባውና አንድ ሞዴል በበርካታ TPU v540 Pods ላይ ለማሰልጠን ያስችላል።
ፓኤልኤም፣ ጥቅጥቅ ያለ ዲኮደር-ብቻ ትራንስፎርመር ሞዴል፣ እጅግ በጣም ዘመናዊ የሆነ የጥቂት-ምት አፈጻጸም በተለያዩ የስራ ጫናዎች ይበልጣል። PaLM በዳታ ሴንተር ኔትወርክ (DCN) በተገናኙ ሁለት TPU v4 Pods ላይ እየሰለጠነ ነው።
ሁለቱንም ሞዴል እና የውሂብ ትይዩነት ይጠቀማል. ተመራማሪዎቹ በእያንዳንዱ ፖድ ለፓልኤም ውስጥ 3072 TPU v4 ፕሮሰሰሮችን ቀጥረዋል፣ እነዚህም ከ768 አስተናጋጆች ጋር የተገናኙ ናቸው። እንደ ተመራማሪዎቹ ገለጻ፣ ይህ እስካሁን ይፋ የሆነው ትልቁ የTPU ውቅር ነው፣ ይህም የቧንቧ መስመር ትይዩነትን ሳይጠቀሙ ስልጠናን እንዲጨምሩ ያስችላቸዋል።
የቧንቧ መስመር በአጠቃላይ ከሲፒዩ መመሪያዎችን በቧንቧ መስመር የመሰብሰብ ሂደት ነው። የአምሳያው ንብርብሮች በቧንቧ መስመር ሞዴል ትይዩ (ወይም የቧንቧ መስመር ትይዩ) በትይዩ ሊሠሩ በሚችሉ ደረጃዎች የተከፋፈሉ ናቸው።
የማግበር ማህደረ ትውስታው አንድ ደረጃ ለጥቃቅን-ባች ወደፊት ማለፊያ ሲያጠናቅቅ ወደሚቀጥለው ደረጃ ይላካል። የሚከተለው ደረጃ የኋላ መስፋፋቱን ሲያጠናቅቅ ቀስ በቀስ ወደ ኋላ ይላካሉ።
የPaLM Breakthrough ችሎታዎች
PaLM በተለያዩ አስቸጋሪ ተግባራት ውስጥ መሬትን የማፍረስ ችሎታዎችን ያሳያል። በርካታ ምሳሌዎች እነሆ፡-
1. የቋንቋ ፈጠራ እና ግንዛቤ
PaLM በእንግሊዝኛ በ29 የተለያዩ NLP ተግባራት ተፈትኗል።
በጥቂቱ ምት መሰረት፣ PaLM 540B ከቀደምት ትልልቅ ሞዴሎች እንደ GLaM፣ GPT-3፣ Megatron-Turing NLG፣ Gopher፣ Chinchilla እና LaMDA በ28 ከ 29 ተግባራት፣ ክፍት-ጎራ ዝግ-መጽሐፍ ተለዋጭ የጥያቄ-መልስ ተግባራትን ጨምሮ በልጧል። ፣ መዝጋት እና የዓረፍተ ነገር ማጠናቀቂያ ተግባራት ፣ የዊኖግራድ-ስታይል ስራዎች ፣ በዐውደ-ጽሑፉ ውስጥ የማንበብ ግንዛቤ ተግባራት ፣ የጋራ አስተሳሰብ የማመዛዘን ተግባራት ፣ የሱፐር ጂኤል ተግባራት እና ተፈጥሯዊ ግንዛቤ።
በብዙ የቢግ-ቤንች ተግባራት ላይ፣ፓልኤም እጅግ በጣም ጥሩ የተፈጥሮ ቋንቋን የመተርጎም እና የማፍለቅ ችሎታዎችን ያሳያል። ለምሳሌ፣ ሞዴሉ በምክንያት እና በውጤት መካከል ያለውን ልዩነት፣ በተወሰኑ ሁኔታዎች ውስጥ የፅንሰ-ሀሳቦችን ውህደቶች መረዳት እና ፊልሙን ከስሜት ገላጭ ምስሎች መገመት ይችላል። ምንም እንኳን የስልጠናው ኮርፐስ 22 በመቶው እንግሊዘኛ ባይሆንም፣ ከእንግሊዝኛ NLP ተግባራት በተጨማሪ ፓኤልኤም ከብዙ ቋንቋዎች NLP መመዘኛዎች፣ ትርጉምን ጨምሮ በጥሩ ሁኔታ ይሰራል።
2. ማመዛዘን
ፓኤልኤም ባለብዙ እርከን አርቲሜቲክ ወይም የተለመደ አስተሳሰብን በሚጠይቁ የማመዛዘን ተግዳሮቶች ላይ የፈጠራ ችሎታዎችን ለማሳየት የሞዴል መጠንን ከታሰበ ሰንሰለት ጋር ያዋህዳል።
እንደ ጎፈር ያሉ የቀድሞ ኤል.ኤል.ኤም.ዎች አፈጻጸምን ከማሳደጉ አንፃር ከአምሳያው መጠን ያነሰ ጥቅም አግኝተዋል። የፓልኤም 540ቢ የሃሳብ ሰንሰለት አነሳሽነት በሶስት አርቲሜቲክ እና ሁለት የጋራ አስተሳሰብ የመረጃ ስብስቦች ላይ ጥሩ ውጤት አስመዝግቧል።
ፓኤልኤም ከቀድሞው 55% የተሻለ ውጤት በማምጣት የ GPT-3 175B ሞዴልን በጥሩ ሁኔታ በማስተካከል 7500 ችግሮች ካሉት የስልጠና ስብስብ እና ከውጫዊ ካልኩሌተር እና አረጋጋጭ ጋር በማጣመር በGSM58K 8 በመቶ የሚሆኑ ችግሮችን ለመፍታት የተገኘ ሲሆን ባለ 8-ሾት ማበረታቻን በመጠቀም በሺዎች የሚቆጠሩ አስቸጋሪ የትምህርት ቤት ደረጃ የሂሳብ ጥያቄዎች መለኪያ።
ይህ አዲስ ነጥብ በተለይ ከ60-9 አመት ላሉ ታዳጊዎች ወደ 12% አማካኝ መሰናክሎች ስለሚቃረብ ትኩረት የሚስብ ነው። በበይነመረብ ላይ ላልሆኑ ኦሪጅናል ቀልዶችም ምላሽ መስጠት ይችላል።
3. ኮድ ማመንጨት
LLMs ከተፈጥሮ ቋንቋ መግለጫ (ጽሑፍ-ወደ-ኮድ) ኮድ ማመንጨትን፣ በቋንቋዎች መካከል ያለውን ኮድ መተርጎም እና የማጠናቀር ስህተቶችን መፍታትን ጨምሮ በኮድ ሥራዎች ላይ ጥሩ አፈጻጸም አሳይተዋል። በቅድመ-ሥልጠና መረጃ ስብስብ ውስጥ 5% ኮድ ብቻ ቢኖረውም፣ PaLM 540B በአንድ ሞዴል ውስጥ ሁለቱንም በኮድ እና በተፈጥሮ ቋንቋ ስራዎች ላይ ጥሩ ይሰራል።
በ12 እጥፍ ያነሰ የፓይዘን ኮድ በማሰልጠን ላይ እያለ በጥሩ ሁኔታ ከተስተካከለው Codex 50B ጋር የሚዛመድ በመሆኑ ጥቂት የተኩስ አፈፃፀሙ አስደናቂ ነው። ይህ ግኝት ቀደም ሲል ከተደረጉ ግኝቶች ጋር ይመልሳል ትላልቅ ሞዴሎች ከትንንሽ ሞዴሎች የበለጠ ውጤታማ ናሙና ሊሆኑ ይችላሉ ምክንያቱም ከበርካታ ትምህርትን በብቃት ማስተላለፍ ይችላሉ የፕሮግራም ቋንቋዎች እና ግልጽ የቋንቋ ውሂብ.
መደምደሚያ
ፓል ኤም 4 ቢሊዮን ፓራሜትር ሞዴል ጥቅጥቅ ባለ ዲኮደር-ብቻ ትራንስፎርመር ሞዴል በሚገባ በማሰልጠን የPathways ሲስተምን አቅም በሁለት TPU v540 Pods ላይ የማፋጠን አቅም ያሳያል።
የሞዴል ልኬትን ወሰን በመግፋት በተለያዩ የተፈጥሮ ቋንቋዎች ሂደት፣ አመክንዮ እና ኮድ አሰጣጥ ፈተናዎች ላይ የጥቂት-ምት አፈጻጸምን አሳክቷል።
መልስ ይስጡ