Хэл таних, бий болгоход бэлтгэгдсэн томоохон мэдрэлийн сүлжээнүүд сүүлийн жилүүдэд олон төрлийн ажлыг гүйцэтгэхэд гайхалтай үр дүнг харуулж байна. GPT-3 нь том хэлний загваруудыг (LLMs) цөөн хэдэн удаа сурахад ашиглаж, даалгаврын талаар дэлгэрэнгүй мэдээлэл шаардахгүйгээр, загварын параметрүүдийг өөрчлөхгүйгээр маш сайн үр дүнд хүрдэг болохыг баталсан.
Цахиурын хөндийн технологийн гайхамшигт компани болох Google компани хиймэл оюун ухааны дараагийн үеийн загвар болох PaLM буюу Pathways Language Model-ийг дэлхийн технологийн салбарт нэвтрүүллээ. Google шинэ программыг оруулсан хиймэл оюун архитектурыг AI хэлний загварын чанарыг сайжруулах стратегийн зорилго бүхий PaLM болгон ашиглах.
Энэ нийтлэлд бид Palm алгоритмыг нарийвчлан судлах болно, үүнд түүнийг сургахад ашигласан параметрүүд, шийддэг асуудал болон бусад олон зүйлийг багтаасан болно.
Гэж юу вэ Google-ийн PaLM алгоритм?
Pathways хэлний загвар нь юу вэ ПаЛМ ны төлөө. Энэ бол Pathways AI архитектурыг бэхжүүлэх зорилгоор Google-ийн боловсруулсан шинэ алгоритм юм. Бүтцийн гол зорилго нь нэг дор олон сая үйл ажиллагаа явуулах явдал юм.
Үүнд нарийн төвөгтэй өгөгдлийг тайлахаас эхлээд дедуктив үндэслэл хүртэл бүх зүйл багтана. PaLM нь орчин үеийн хиймэл оюун ухаанаас гадна хэл яриа, сэтгэхүйн даалгаврын хувьд хүмүүсийг давах чадвартай.
Үүнд хүн төрөлхтөн шинэ зүйлийг хэрхэн сурч, олон янзын мэдлэгийг нэгтгэж, урьд өмнө хэзээ ч байгаагүй шинэ сорилтуудыг шийдвэрлэхийн тулд бүх мэдлэгээ шинэ сорилтуудыг шийдвэрлэхэд ашиглаж чадах машины ашиг тустай "Цөөн буудлагатай сургалт" багтана; PaLM-ийн энэхүү ур чадварын нэг жишээ бол урьд өмнө сонсож байгаагүй онигоо тайлбарлах чадвар юм.
PaLM нь хэлийг ойлгох, бүтээх, арифметик кодтой холбоотой олон шатлалт үйл ажиллагаа, эрүүл саруул ухаанаар сэтгэх, орчуулга хийх гэх мэт олон төрлийн сорилттой даалгаврууд дээр олон шинэ ур чадваруудыг харуулсан.
Энэ нь олон хэлний NLP багц ашиглан төвөгтэй асуудлыг шийдвэрлэх чадвартай гэдгээ харуулсан. PaLM нь дэлхийн технологийн зах зээлд шалтгаан, үр дагавар, үзэл баримтлалын хослол, ялгаатай тоглоом болон бусад олон зүйлийг ялгахад ашиглаж болно.
Мөн олон үе шаттай логик дүгнэлт, гүнзгий хэллэг, дэлхийн мэдлэг болон бусад арга техникийг ашиглан олон контекстийн гүн гүнзгий тайлбарыг бий болгож чадна.
Google PaLM алгоритмыг хэрхэн хөгжүүлсэн бэ?
Google-ийн PaLM дахь амжилтын гүйцэтгэлийн хувьд замуудыг 540 тэрбум хүртэлх параметртэй болгохоор төлөвлөж байна. Энэ нь олон тооны домэйныг үр дүнтэй, үр дүнтэй нэгтгэх боломжтой цорын ганц загвар гэж хүлээн зөвшөөрөгдсөн. Google дахь Pathways нь хурдасгуурт зориулсан тархсан тооцооллыг хөгжүүлэхэд зориулагдсан.
PaLM бол Pathways системийг ашиглан сургагдсан зөвхөн декодчилогчтой трансформаторын загвар юм. Google-ийн мэдээлснээр PaLM нь хэд хэдэн ажлын ачаалалд хамгийн сүүлийн үеийн гүйцэтгэлд амжилттай хүрсэн. PaLM нь Pathways системийг анх удаагаа 6144 чип гэж нэрлэгддэг TPU-д суурилсан хамгийн том системийн тохиргоо болгон сургалтыг өргөжүүлэхэд ашигласан.
AI-хэлний загварт зориулсан сургалтын өгөгдлийн багц нь англи хэл болон бусад олон хэлний мэдээллийн багцаас бүрддэг. "Алдагдалгүй" үгсийн сантай, энэ нь өндөр чанартай вэб контент, хэлэлцүүлэг, ном, GitHub код, Википедиа болон бусад олон зүйлийг агуулдаг. Алдагдалгүй үгсийн сан нь хоосон зайг хадгалж, үгсийн санд байхгүй Юникод тэмдэгтүүдийг байт болгон задлахад зориулагдсан.
PaLM-ийг Google болон Pathways компани трансформаторын стандарт загвар архитектур болон декодчилогчийн тохиргоог ашиглан хөгжүүлсэн бөгөөд үүнд SwiGLU идэвхжүүлэлт, параллель давхарга, RoPE суулгац, хуваалцсан оролт-гаралтын суулгац, олон асуултын анхаарал хандуулж, хэвийсэн ойлголт, үг хэллэг байхгүй. Нөгөөтэйгүүр, PaLM нь Google болон Pathways-ийн хиймэл оюун ухааны хэлний загварт бат бөх үндэс суурь өгөхөд бэлэн байна.
PaLM-ийг сургахад ашигладаг параметрүүд
Өнгөрсөн жил Google Pathways-ыг гаргасан бөгөөд энэ нь одоо байгаа загваруудын зөвхөн нэг л зүйлийг хийхээр сургах хязгаарлалтыг даван туулж чаддаг тул "дараагийн үеийн хиймэл оюун ухааны архитектур" гэж нэрлэсэн. . Одоогийн загваруудын чадавхийг өргөжүүлэхийн оронд нэг ажлыг гүйцэтгэхийн тулд шинэ загваруудыг ихэвчлэн доороос дээш бүтээдэг.
Үүний үр дүнд тэд хэдэн арван мянган янз бүрийн үйл ажиллагаанд зориулж хэдэн арван мянган загварыг бий болгосон. Энэ бол цаг хугацаа, нөөц их шаарддаг ажил юм.
Google нь Pathways-ээр дамжуулан нэг загвар нь олон төрлийн үйл ажиллагааг удирдаж, шинэ даалгавруудыг илүү хурдан бөгөөд үр дүнтэй сурахын тулд одоогийн авьяас чадвараа татаж, нэгтгэж чадна гэдгийг баталсан.
Алсын хараа, хэл шинжлэлийн ойлголт, сонсголын боловсруулалтыг нэгэн зэрэг багтаасан олон талт загваруудыг замуудаар дамжуулан идэвхжүүлж болно. Pathways Language Model (PaLM) нь 4 тэрбум параметрийн загварын ачаар олон тооны TPU v540 Pod дээр нэг загварыг сургах боломжийг олгодог.
PaLM нь зөвхөн декодчилогчийн нягт нямбай трансформаторын загвар нь олон төрлийн ажлын ачааллыг даван туулахад хамгийн сүүлийн үеийн хэдхэн удаагийн гүйцэтгэлийг давж гарна. PaLM нь дата төвийн сүлжээгээр (DCN) холбогдсон хоёр TPU v4 Pod дээр сургагдаж байна.
Энэ нь загвар болон өгөгдлийн параллелизмын давуу талыг ашигладаг. Судлаачид 3072 хосттой холбогдсон PaLM-д зориулсан Pod бүрт 4 TPU v768 процессор ашигласан. Судлаачдын үзэж байгаагаар энэ нь дамжуулах хоолойн параллелизмыг ашиглахгүйгээр сургалтын цар хүрээг нэмэгдүүлэх боломжийг олгодог хамгийн том TPU тохиргоо юм.
Хоолойн доторлогоо нь ерөнхийдөө дамжуулах хоолойгоор дамжуулан CPU-ээс зааварчилгааг цуглуулах үйл явц юм. Загварын давхаргууд нь шугам хоолойн загварын параллелизм (эсвэл дамжуулах хоолойн параллелизм) -ээр зэрэгцүүлэн боловсруулж болох үе шатуудад хуваагддаг.
Нэг үе шат нь микро багцын дамжуулалтыг дуусгахад идэвхжүүлэх санах ойг дараагийн алхам руу илгээдэг. Дараах шат нь арагшаа тархалтаа дуусгахад градиентуудыг хойш нь илгээдэг.
PaLM-ийн нээлтийн чадвар
PaLM нь янз бүрийн хүнд хэцүү даалгавруудыг гүйцэтгэхэд шинэлэг чадварыг харуулдаг. Энд хэд хэдэн жишээ байна:
1. Хэл бүтээх, ойлгох
PaLM-ийг англи хэл дээр 29 өөр NLP даалгавар дээр туршиж үзсэн.
Хэдхэн удаагийн байдлаар PaLM 540B нь GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, LaMDA зэрэг өмнөх том загваруудаас 28 даалгаврын 29-ыг нь гүйцэтгэсэн бөгөөд үүнд нээлттэй домэйны хаалттай номын хувилбарын асуулт хариултын даалгаварууд багтжээ. , хаах болон өгүүлбэр дуусгах даалгаврууд, Виноград маягийн даалгавар, контекстэд уншиж ойлгох даалгаврууд, нийтлэг ойлголтоор бодох даалгавар, SuperGLUE даалгавар, байгалийн дүгнэлт.
Хэд хэдэн BIG вандан даалгаврууд дээр PaLM нь байгалийн хэлийг маш сайн тайлбарлах, бүтээх чадварыг харуулдаг. Жишээлбэл, загвар нь шалтгаан, үр дагаврыг ялгаж, тодорхой нөхцөл байдалд концепцийн хослолыг ойлгож, эможи ашиглан киног тааж чадна. Сургалтын корпусын ердөө 22% нь англи хэл биш ч гэсэн PaLM нь англи хэлний NLP даалгавруудаас гадна орчуулга зэрэг олон хэлний NLP шалгуур үзүүлэлтүүдийг сайн гүйцэтгэдэг.
2. Шалтгаан
PaLM нь олон шатлалт арифметик эсвэл нийтлэг үндэслэлтэй үндэслэлийг шаарддаг тулгарах сорилтуудыг шийдвэрлэх ур чадваруудыг харуулахын тулд загварын хэмжээг бодлын хэлхээтэй хослуулсан.
Gopher зэрэг өмнөх LLM-ууд гүйцэтгэлийг сайжруулах үүднээс загварын хэмжээнээс бага ашиг хүртэж байсан. Бодлын гинжин хэлхээ бүхий PaLM 540B нь гурван арифметик, хоёр нийтлэг сэтгэлгээний мэдээллийн багц дээр сайн ажилласан.
PaLM нь GPT-55 3B загварыг 175 бодлоготой сургалтын багцтай нарийн тааруулж, гадаад тооцоолуур болон шалгагчтай хослуулан GSM7500K-ийн асуудлын 58 хувийг шийдэж өгсөн 8%-ийн өмнөх оноог давсан байна. Сургуулийн түвшний математикийн мянга мянган хүнд хэцүү асуултуудын жишиг 8 шидэлт ашиглан.
Энэхүү шинэ оноо нь 60-9 насны хүүхдүүдэд учирч буй саад бэрхшээлийн 12%-д ойртож байгаа тул онцгой анхаарал татаж байна. Энэ нь мөн интернетэд байхгүй анхны хошигнолуудад хариулах боломжтой.
3. Код үүсгэх
LLM нь байгалийн хэлний тайлбараас код үүсгэх (текстээс код руу шилжүүлэх), хэл хоорондын кодыг орчуулах, эмхэтгэлийн алдааг шийдвэрлэх зэрэг кодчиллын ажлыг сайн гүйцэтгэдэг болохыг харуулсан. Сургалтын өмнөх өгөгдлийн багцад ердөө 5% код байгаа хэдий ч PaLM 540B нь нэг загварт кодчилол болон байгалийн хэлний даалгавруудыг сайн гүйцэтгэдэг.
12 дахин бага Python кодоор бэлтгэл хийхдээ нарийн тааруулсан Codex 50B-тэй таарч байгаа тул түүний цөөн тооны цохилтын гүйцэтгэл нь гайхалтай юм. Энэхүү олдвор нь том загварууд нь жижиг загваруудаас илүү үр дүнтэй түүвэрлэх боломжтой, учир нь тэд олон загвараас суралцахыг илүү үр дүнтэйгээр дамжуулж чаддаг болохыг харуулж байна. програмчлалын хэл болон энгийн хэлний өгөгдөл.
Дүгнэлт
PaLM нь Pathways системийн чадавхийг хоёр TPU v4 Pod дээр мянга мянган хурдасгуур процессор болгон өргөжүүлэх чадварыг харуулж, 540 тэрбум параметрийн загварыг зөвхөн нягт декодчилогчтой Трансформаторын загварчлалын сайн судлагдсан, сайн батлагдсан жороор үр дүнтэй сургаж байна.
Энэ нь загварын цар хүрээний хязгаарыг давж, байгалийн хэлийг боловсруулах, үндэслэл гаргах, кодлох олон төрлийн сорилтуудыг даван туулахад хэдхэн цохилтын гүйцэтгэлийг бий болгодог.
хариу үлдээх