Rrjetet e mëdha nervore që janë trajnuar për njohjen dhe gjenerimin e gjuhës kanë treguar rezultate të jashtëzakonshme në një sërë detyrash vitet e fundit. GPT-3 vërtetoi se modelet e mëdha të gjuhës (LLM) mund të përdoren për të mësuar me pak goditje dhe për të marrë rezultate të shkëlqyera pa kërkuar të dhëna të gjera specifike për detyrat ose ndryshimin e parametrave të modelit.
Google, gjiganti i teknologjisë në Silicon Valley, ka prezantuar PaLM, ose Pathways Language Model, në industrinë botërore të teknologjisë si modeli i gjeneratës së ardhshme në gjuhën AI. Google ka inkorporuar një të re inteligjencës artificiale arkitekturë në PalM me synime strategjike për të përmirësuar cilësinë e modelit të gjuhës AI.
Në këtë postim, ne do të shqyrtojmë në detaje algoritmin Palm, duke përfshirë parametrat e përdorur për ta trajnuar atë, çështjen që zgjidh dhe shumë më tepër.
Çfarë është Algoritmi PalM i Google?
Modeli i gjuhës së rrugëve është çfarë palme qëndron për. Ky është një algoritëm i ri i zhvilluar nga Google për të forcuar arkitekturën e AI të Pathways. Qëllimi kryesor i strukturës është të kryejë një milion aktivitete të ndryshme menjëherë.
Këto përfshijnë gjithçka, nga deshifrimi i të dhënave komplekse deri te arsyetimi deduktiv. PaLM ka aftësinë të kapërcejë teknologjinë moderne të AI, si dhe njerëzit në detyrat gjuhësore dhe të arsyetimit.
Kjo përfshin mësimin me pak gjuajtje, i cili imiton mënyrën se si njerëzit mësojnë gjëra të reja dhe kombinojnë pjesë të ndryshme njohurish për të trajtuar sfida të reja që nuk janë parë kurrë më parë, me përfitimin e një makine që mund të përdorë të gjitha njohuritë e saj për të zgjidhur sfida të reja; Një shembull i kësaj aftësie në PALM është aftësia e tij për të shpjeguar një shaka që nuk e ka dëgjuar kurrë më parë.
PaLM demonstroi shumë aftësi përparimtare në një sërë detyrash sfiduese, duke përfshirë të kuptuarit dhe krijimin e gjuhës, aktivitetet e lidhura me kodin aritmetik me shumë hapa, arsyetimin me sens të përbashkët, përkthimin dhe shumë të tjera.
Ai ka demonstruar aftësinë e tij për të zgjidhur çështje të ndërlikuara duke përdorur grupe shumëgjuhëshe NLP. PaLM mund të përdoret nga tregu botëror i teknologjisë për të dalluar shkakun dhe efektin, kombinimet konceptuale, lojërat e dallueshme dhe shumë gjëra të tjera.
Ai gjithashtu mund të gjenerojë shpjegime të thelluara për shumë kontekste duke përdorur konkluzionet logjike me shumë hapa, gjuhë të thellë, njohuri globale dhe teknika të tjera.
Si e zhvilloi Google algoritmin PalM?
Për performancën përparimtare të Google në PaLM, shtigjet janë planifikuar të shkallëzohen deri në 540 miliardë parametra. Njihet si i vetmi model që mund të përgjithësohet në mënyrë efikase dhe efektive në fusha të shumta. Pathways në Google është i përkushtuar për zhvillimin e llogaritjeve të shpërndara për përshpejtuesit.
PaLM është një model transformatori vetëm me dekoder që është trajnuar duke përdorur sistemin Pathways. Sipas Google, PaLM ka arritur me sukses performancën më të fundit të disa fotografive në disa ngarkesa pune. PaLM ka përdorur sistemin Pathways për të zgjeruar trajnimin në konfigurimin më të madh të sistemit të bazuar në TPU, i njohur si çipat 6144 për herë të parë.
Një grup të dhënash trajnimi për modelin e gjuhës AI përbëhet nga një përzierje e grupeve të të dhënave në anglisht dhe të tjera shumëgjuhëshe. Me një fjalor "pa humbje", ai përmban përmbajtje të internetit me cilësi të lartë, diskutime, libra, kode GitHub, Wikipedia dhe shumë të tjera. Fjalori pa humbje njihet për ruajtjen e hapësirës së bardhë dhe ndarjen e karaktereve të Unicode që nuk janë në fjalor në bajt.
PaLM u zhvillua nga Google dhe Pathways duke përdorur një arkitekturë standarde të modelit të transformatorit dhe një konfigurim dekoderi që përfshin aktivizimin SwiGLU, shtresat paralele, ngulitje RoPE, ngulitje të përbashkëta hyrje-dalje, vëmendje me shumë pyetje dhe pa paragjykime apo fjalor. PaLM, nga ana tjetër, është gati të ofrojë një bazë solide për modelin e gjuhës AI të Google dhe Pathways.
Parametrat e përdorur për të trajnuar PALM
Vitin e kaluar, Google lançoi Pathways, një model të vetëm që mund të trajnohet për të bërë mijëra, nëse jo miliona gjëra - e quajtur "arkitektura e gjeneratës së ardhshme të AI" pasi mund të kapërcejë kufizimet e modeleve ekzistuese për t'u trajnuar për të bërë vetëm një gjë . Në vend që të zgjerojnë aftësitë e modeleve aktuale, modelet e reja shpesh ndërtohen nga poshtë lart për të kryer një punë të vetme.
Si rezultat, ata kanë krijuar dhjetëra mijëra modele për dhjetëra mijëra aktivitete të ndryshme. Kjo është një detyrë që kërkon shumë kohë dhe burime intensive.
Google vërtetoi nëpërmjet Pathways se një model i vetëm mund të trajtojë një sërë aktivitetesh dhe të tërheqë dhe kombinojë talentet aktuale për të mësuar detyra të reja më shpejt dhe me efikasitet.
Modelet multimodale që përfshijnë vizionin, të kuptuarit gjuhësor dhe përpunimin dëgjimor të gjitha në të njëjtën kohë mund të mundësohen përmes rrugëve. Modeli i gjuhës së rrugëve (PaLM) lejon trajnimin e një modeli të vetëm në një numër të madh të TPU v4 Pods falë modelit të tij prej 540 miliardë parametrash.
PaLM, një model i dendur Transformer vetëm me dekoder, tejkalon performancën më të fundit të disa fotografive në një gamë të gjerë ngarkesash pune. PaLM po trajnohet në dy TPU v4 Pods që janë të lidhur nëpërmjet një rrjeti të qendrës së të dhënave (DCN).
Ai përfiton nga paralelizmi i modelit dhe i të dhënave. Studiuesit përdorën 3072 procesorë TPU v4 në çdo Pod për PaLM, të cilët ishin të lidhur me 768 hoste. Sipas studiuesve, ky është konfigurimi më i madh i TPU-së i zbuluar ende, duke i lejuar ata të shkallëzojnë trajnimin pa përdorur paralelizmin e tubacionit.
Rreshtimi i tubave është procesi i mbledhjes së udhëzimeve nga CPU përmes një tubacioni në përgjithësi. Shtresat e modelit ndahen në faza që mund të përpunohen paralelisht nëpërmjet paralelizmit të modelit të tubacionit (ose paralelizmit të tubacionit).
Kujtesa e aktivizimit dërgohet në hapin tjetër kur një fazë përfundon kalimin përpara për një mikro-batch. Më pas, gradientët dërgohen prapa kur faza vijuese përfundon përhapjen e saj prapa.
Aftësitë përparuese të PALM
PaLM shfaq aftësi novator në një sërë detyrash të vështira. Këtu janë disa shembuj:
1. Krijimi dhe kuptimi i gjuhës
PaLM u vu në provë në 29 detyra të ndryshme NLP në anglisht.
Në bazë të disa goditjeve, PaLM 540B ia kalonte modelet e mëparshme të mëdha si GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla dhe LaMDA në 28 nga 29 detyrat, duke përfshirë detyrat e pyetjeve të varianteve të mbyllura me domen të hapur. , detyra mbylljeje dhe plotësimi të fjalive, detyra të stilit Winograd, detyra të të kuptuarit të leximit në kontekst, detyra arsyetimi me sens të përbashkët, detyra SuperGLUE dhe përfundime natyrore.
Në disa detyra BIG-bench, PalM demonstron aftësi të shkëlqyera të interpretimit dhe gjenerimit të gjuhës natyrore. Për shembull, modeli mund të bëjë dallimin midis shkakut dhe pasojës, të kuptojë kombinimet konceptuale në situata të caktuara dhe madje të gjejë filmin nga një emoji. Edhe pse vetëm 22% e korpusit të trajnimit është jo-anglisht, PalM performon mirë në standardet e NLP shumëgjuhëshe, duke përfshirë përkthimin, përveç detyrave NLP në anglisht.
2. Arsyetimi
PaLM kombinon madhësinë e modelit me shtytjen e zinxhirit të mendimit për të demonstruar aftësi të reja në sfidat e arsyetimit që kërkojnë arsyetim aritmetik me shumë hapa ose arsyetim të arsyeshëm.
LLM-të e mëparshme, si Gopher, përfituan më pak nga madhësia e modelit për sa i përket përmirësimit të performancës. PaLM 540B me nxitje të zinxhirit të mendimit rezultoi mirë në tre grupe të dhënash aritmetike dhe dy të të menduarit të zakonshëm.
PaLM tejkalon rezultatin më të mirë të mëparshëm prej 55%, i cili u përftua duke akorduar modelin GPT-3 175B me një grup trajnimi prej 7500 problemesh dhe duke e kombinuar atë me një kalkulator dhe verifikues të jashtëm për të zgjidhur 58 për qind të problemeve në GSM8K, një pikë referimi e mijëra pyetjeve të vështira matematikore të nivelit të shkollës duke përdorur nxitje me 8 goditje.
Ky rezultat i ri është veçanërisht i rëndësishëm pasi i afrohet mesatares prej 60% të pengesave që përjetojnë 9-12-vjeçarët. Mund t'u përgjigjet gjithashtu shakave origjinale që nuk janë të disponueshme në internet.
3. Gjenerimi i kodeve
LLM-të janë treguar gjithashtu të performojnë mirë në detyrat e kodimit, duke përfshirë gjenerimin e kodit nga një përshkrim i gjuhës natyrore (tekst në kod), përkthimin e kodit midis gjuhëve dhe zgjidhjen e gabimeve të përpilimit. Pavarësisht se ka vetëm 5% kod në grupin e të dhënave para-stërvitore, PaLM 540B performon mirë si në detyrat e kodimit ashtu edhe në detyrat e gjuhës natyrore në një model të vetëm.
Performanca e tij me disa goditje është e pabesueshme, pasi përputhet me Codex 12B të rregulluar mirë, ndërsa stërvitet me 50 herë më pak kod Python. Ky zbulim mbështet me gjetjet e mëparshme se modelet më të mëdha mund të jenë më efikase sesa modelet më të vogla, sepse ato mund të transferojnë në mënyrë më efektive të mësuarit nga shumë gjuhë programimi dhe të dhëna të gjuhës së thjeshtë.
Përfundim
PaLM tregon kapacitetin e sistemit Pathways për t'u shkallëzuar në mijëra përpunues përshpejtues mbi dy TPU v4 Pods duke trajnuar në mënyrë efektive një model parametrash prej 540 miliardë dollarësh me një recetë të mirë-studuar dhe të vendosur mirë të një modeli Transformer të dendur vetëm me dekoder.
Ai arrin performancë të jashtëzakonshme me disa fotografi në një sërë sfidash të përpunimit, arsyetimit dhe kodimit të gjuhës natyrore duke shtyrë kufijtë e shkallës së modelit.
Lini një Përgjigju