Тилди таануу жана генерациялоо үчүн үйрөтүлгөн ири нейрон тармактары акыркы жылдарда ар кандай тапшырмаларды аткарууда мыкты натыйжаларды көрсөттү. GPT-3 чоң тил моделдерин (LLMs) бир нече жолу үйрөнүү үчүн колдонсо болорун жана тапшырмага тиешелүү кеңири маалыматтарды талап кылбастан же моделдин параметрлерин өзгөртпөстөн сонун натыйжаларды алууга болорун далилдеди.
Google, Силикон өрөөнүнүн технологиялык бегемоту, кийинки муундагы AI тилинин модели катары дүйнөлүк технологиялык индустрияга PaLM же Pathways Language Modelди киргизди. Google жаңысын киргизди Жасалма интеллект AI тил моделинин сапатын жакшыртуу стратегиялык максаттары менен PaLMге архитектура.
Бул постто биз Палм алгоритмин майда-чүйдөсүнө чейин карап чыгабыз, анын ичинде аны үйрөтүү үчүн колдонулган параметрлер, ал чечкен маселе жана башка көп нерселер.
Эмне Google'дун PaLM алгоритми?
Pathways Language Model - бул эмне ПАЛМА билдирет. Бул Pathways AI архитектурасын бекемдөө максатында Google тарабынан иштелип чыккан жаңы алгоритм. Түзүмдүн негизги максаты - бир эле учурда миллиондогон иш-аракеттерди жасоо.
Аларга татаал маалыматтарды чечмелөөдөн тартып дедуктивдүү ой жүгүртүүгө чейин бардыгы кирет. PaLM тил жана ой жүгүртүү тапшырмалары боюнча азыркы AI заманбап абалынан, ошондой эле адамдардан ашып түшө алат.
Буга адамдардын жаңы нерселерди кантип үйрөнүшүн туураган жана мурда болуп көрбөгөн жаңы чакырыктарды чечүү үчүн ар түрдүү билимдерди айкалыштырган Few-Shot Learning кирет. PaLMдеги бул чеберчиликтин бир мисалы, анын мурда эч качан укпаган тамашаны түшүндүрүү жөндөмү.
PaLM ар кандай татаал тапшырмаларда, анын ичинде тилди түшүнүү жана түзүү, көп баскычтуу арифметикалык коддор менен байланышкан иш-аракеттер, жалпы ой жүгүртүү, котормо жана башка көптөгөн ийгиликтерди көрсөттү.
Ал көп тилдүү NLP топтомдорун колдонуу менен татаал маселелерди чечүүгө жөндөмдүү экенин көрсөттү. PaLM дүйнөлүк технология рыногунда себеп-натыйжаларды, концептуалдык айкалыштарды, айырмаланган оюндарды жана башка көптөгөн нерселерди айырмалоо үчүн колдонулушу мүмкүн.
Ал ошондой эле көп баскычтуу логикалык корутундуну, терең тилди, глобалдык билимди жана башка ыкмаларды колдонуу менен көптөгөн контексттер үчүн терең түшүндүрмөлөрдү түзө алат.
Google кантип PaLM алгоритмин иштеп чыккан?
Google'дун PaLM тармагындагы жетишкендиктери үчүн жолдор 540 миллиард параметрге чейин масштабдалат. Бул көптөгөн домендерде натыйжалуу жана натыйжалуу жалпылай турган бир модель катары таанылган. Google'дагы Pathways тездеткичтер үчүн бөлүштүрүлгөн эсептөөлөрдү иштеп чыгууга арналган.
PaLM - Pathways тутумун колдонуу менен үйрөтүлгөн декодер гана трансформатор модели. Google'дун айтымында, PaLM бир нече жумуш жүктөмдөрүндө заманбап бир нече атууга ийгиликтүү жетишкен. PaLM биринчи жолу 6144 чип деп аталган эң чоң TPU негизиндеги тутум конфигурациясына окутууну кеңейтүү үчүн Pathways системасын колдонгон.
AI-тил модели үчүн окутуу маалымат топтому англис жана башка көп тилдүү маалымат топтомдорунун аралашмасынан турат. "Жоготпогон" лексика менен ал жогорку сапаттагы веб-контент, талкуулар, китептер, GitHub коду, Wikipedia жана башка көптөгөн нерселерди камтыйт. Lossless лексикасы боштуктарды сактоо жана лексикада жок Юникод символдорун байттарга бөлүү үчүн таанылат.
PaLM Google жана Pathways тарабынан стандарттык трансформатор моделинин архитектурасын жана SwiGLU активдештирүүсүн, параллелдүү катмарларды, RoPE кыстарууларын, жалпы киргизүү-чыгаруу кыстарууларын, көп суроо-талаптарга көңүл бурууну жана эч кандай тенденцияларды же лексиканы камтыган декодер конфигурациясын колдонуу менен иштелип чыккан. PaLM, экинчи жагынан, Google жана Pathways AI-тил модели үчүн бекем негиз түзүүгө даяр.
PaLM үйрөтүү үчүн колдонулган параметрлер
Өткөн жылы Google миңдеген, болбосо миллиондогон нерселерди жасоого үйрөтө турган Pathways бир моделин ишке киргизди — «кийинки муундагы AI архитектурасы» деп аталат, анткени ал учурдагы моделдердин бир гана нерсени жасоого үйрөтүү боюнча чектөөлөрүн жеңе алат. . Учурдагы моделдердин мүмкүнчүлүктөрүн кеңейтүүнүн ордуна, жаңы моделдер көбүнчө бир ишти аткаруу үчүн ылдыйдан өйдө курулат.
Натыйжада алар он мицдеген ар турдуу иш-тердин он мицдеген моделдерин тузушту. Бул көп убакытты жана ресурстарды көп талап кылган иш.
Google Pathways аркылуу бир моделдин ар кандай иш-аракеттерди аткара аларын жана жаңы тапшырмаларды тезирээк жана натыйжалуу үйрөнүү үчүн учурдагы таланттарды тартуу жана бириктире аларын далилдеди.
Көрүү, лингвистикалык түшүнүү жана угуу процессин бир эле учурда камтыган мультимодалдык моделдер жолдор аркылуу иштетилиши мүмкүн. Pathways Language Model (PaLM) өзүнүн 4 миллиард параметр моделинин аркасында көптөгөн TPU v540 Pods аркылуу бир моделди үйрөтүүгө мүмкүндүк берет.
PaLM, жыш декодер гана болгон Transformer модели, жумуш жүктөмүнүн кеңири диапазонунда заманбап бир нече атуучу аткаруудан ашып кетет. PaLM маалымат борборунун тармагы (DCN) аркылуу байланышкан эки TPU v4 Pod боюнча окутулууда.
Ал моделдин жана маалыматтардын параллелизминин артыкчылыктарын пайдаланат. Изилдөөчүлөр PaLM үчүн ар бир Pod үчүн 3072 TPU v4 процессорун колдонушкан, алар 768 хост менен туташтырылган. Окумуштуулардын айтымында, бул эң чоң TPU конфигурациясы ачылып, аларга труба параллелизмин колдонбостон окутууну кеңейтүүгө мүмкүндүк берет.
Түтүктөрдү каптоо - бул жалпысынан түтүк аркылуу CPUдан көрсөтмөлөрдү чогултуу процесси. Моделдин катмарлары трубопровод моделинин параллелизми (же трубопровод параллелизми) аркылуу параллелдүү иштетиле турган фазаларга бөлүнөт.
Бир этап микро партия үчүн алдыга өтүүнү аяктаганда активдештирүү эстутуму кийинки кадамга жөнөтүлөт. Кийинки этап артка жайылышын аяктаганда градиенттер артка жөнөтүлөт.
PaLM Breakthrough Capabilities
PaLM бир катар татаал милдеттерди аткарууда жаңы мүмкүнчүлүктөрдү көрсөтөт. Бул жерде бир нече мисалдар келтирилген:
1. Тилди түзүү жана түшүнүү
PaLM англис тилиндеги 29 түрдүү NLP тапшырмасы боюнча тесттен өттү.
Бир нече атуунун негизинде PaLM 540B GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla жана LaMDA сыяктуу 28 тапшырманын 29инде, анын ичинде ачык домендик жабык китеп варианты суроо-жооп тапшырмаларында мурунку чоң моделдерден ашып түштү. , жабуу жана сүйлөмдү аяктоо тапшырмалары, Виноград стилиндеги тапшырмалар, контекстте окуп түшүнүү тапшырмалары, жалпы ой жүгүртүү тапшырмалары, SuperGLUE тапшырмалары жана табигый жыйынтык.
Бир нече BIG-стенддик тапшырмалар боюнча, PaLM эң сонун табигый тилди чечмелөө жана муун көндүмдөрүн көрсөтөт. Мисалы, модель себеп менен натыйжаны айырмалай алат, белгилүү бир жагдайлардагы концептуалдык айкалыштарды түшүнө алат, ал тургай, эмодзиден тасманы болжолдой алат. Окутуучу корпустун 22% гана англисче эмес болсо да, PaLM англисче NLP тапшырмаларынан тышкары көп тилдүү NLP эталондорунда, анын ичинде котормодо жакшы аткарат.
2. Ой жүгүртүү
PaLM көп баскычтуу арифметикалык же акылга сыярлык ой жүгүртүүнү талап кылган ой жүгүртүү чакырыктары боюнча прогрессивдүү көндүмдөрдү көрсөтүүгө түрткү берүүчү ойлордун тизмеги менен моделдин өлчөмүн айкалыштырат.
Мурунку LLMs, мисалы, Gopher, өндүрүмдүүлүгүн жогорулатуу жагынан моделдин өлчөмүнөн азыраак пайда алышкан. PaLM 540B ой жүгүртүү чынжырчасы үч арифметикалык жана эки жалпы ой жүгүртүү маалымат топтомунда жакшы натыйжа берди.
PaLM мурунку эң мыкты 55% упайдан ашып кетти, ал GPT-3 175B моделин 7500 маселеден турган окуу топтомун тактоодон жана аны тышкы калькулятор жана текшергич менен айкалыштыруу менен GSM58Kдагы маселелердин 8 пайызын чечүүдө. 8-ок түртүүнү колдонуу менен мектеп деңгээлиндеги миңдеген татаал математикалык суроолордун эталондору.
Бул жаңы балл өзгөчө көңүл бурууга арзыйт, анткени ал 60-9 жаштагы балдар башынан өткөргөн тоскоолдуктардын орточо 12% жакындайт. Ал ошондой эле интернетте жок оригиналдуу тамашаларга жооп бере алат.
3. Code Generation
LLMs ошондой эле табигый тилдин сүрөттөмөсүнөн кодду түзүү (тексттен кодго), тилдер ортосундагы кодду которуу жана компиляция каталарын чечүү сыяктуу коддоо тапшырмаларында жакшы аткара тургандыгы көрсөтүлгөн. Машыгууга чейинки маалымат топтомунда 5% гана кодго ээ болгонуна карабастан, PaLM 540B бир моделде коддоо жана табигый тил тапшырмаларын жакшы аткарат.
Анын бир нече атуу аткаруусу укмуштуудай, анткени ал 12 эсе аз Python коду менен машыгуу учурунда жакшы жөндөлгөн Codex 50B менен дал келет. Бул табылга чоңураак моделдер кичине моделдерге караганда көбүрөөк үлгү боло алат, анткени алар бир нече моделдерден үйрөнүүнү эффективдүү өткөрө аларын алдын ала жыйынтыктайт. программалоо тилдери жана жөнөкөй тил маалыматтары.
жыйынтыктоо
PaLM Pathways тутумунун эки TPU v4 Pod аркылуу миңдеген акселератор процессорлоруна масштабдоо мүмкүнчүлүгүн көрсөтөт, 540 миллиарддык параметр моделин тыгыз декодер гана Transformer моделинин жакшы изилденген, жакшы негизделген рецепти менен натыйжалуу үйрөтөт.
Ал моделдин масштабынын чегин түртүп, табигый тилди иштетүү, ой жүгүртүү жана коддоо маселелери боюнча бир нече аттуу көрсөткүчтөргө жетишет.
Таштап Жооп