Velike neuronske mreže koje su osposobljene za prepoznavanje i generiranje jezika pokazale su izvanredne rezultate u raznim zadacima posljednjih godina. GPT-3 je dokazao da se veliki jezični modeli (LLM) mogu koristiti za kratkotrajno učenje i postizanje izvrsnih rezultata bez potrebe za opsežnim podacima specifičnim za zadatak ili mijenjanjem parametara modela.
Google, tehnološki behemot iz Silicijske doline, predstavio je PaLM, ili Pathways Language Model, svjetskoj tehnološkoj industriji kao sljedeću generaciju modela AI jezika. Google je ugradio novi umjetna inteligencija arhitekture u PaLM sa strateškim ciljevima poboljšanja kvalitete modela AI-jezika.
U ovom ćemo postu detaljno ispitati algoritam Palm, uključujući parametre koji se koriste za njegovo treniranje, problem koji rješava i još mnogo toga.
Što je Googleov PaLM algoritam?
Putovi Jezični model je ono što Dlan stoji za. Ovo je novi algoritam koji je razvio Google kako bi ojačao Pathways AI arhitekturu. Glavni cilj strukture je obavljanje milijun različitih aktivnosti odjednom.
To uključuje sve, od dešifriranja složenih podataka do deduktivnog zaključivanja. PaLM ima sposobnost nadmašiti trenutno najsuvremeniju umjetnu inteligenciju, kao i ljude u zadacima jezika i razmišljanja.
To uključuje malokratno učenje, koje oponaša kako ljudi uče nove stvari i kombiniraju različite dijelove znanja kako bi se uhvatili u koštac s novim izazovima koji nikada prije nisu viđeni, uz prednost stroja koji može upotrijebiti svo svoje znanje za rješavanje novih izazova; jedan primjer ove vještine u PaLM-u je njegova sposobnost da objasni šalu koju nikada prije nije čuo.
PaLM je demonstrirao mnoge revolucionarne vještine na nizu izazovnih zadataka, uključujući razumijevanje i stvaranje jezika, aktivnosti vezane uz aritmetičke kodove u više koraka, zdravorazumsko razmišljanje, prevođenje i mnoge druge.
Pokazao je svoju sposobnost rješavanja kompliciranih problema pomoću višejezičnih NLP skupova. PaLM se može koristiti na svjetskom tehnološkom tržištu za razlikovanje uzroka i posljedica, konceptualnih kombinacija, različitih igara i mnogih drugih stvari.
Također može generirati detaljna objašnjenja za mnoge kontekste korištenjem logičkog zaključivanja u više koraka, dubokog jezika, globalnog znanja i drugih tehnika.
Kako je Google razvio PaLM algoritam?
Za Googleovu revolucionarnu izvedbu u PaLM-u, planirano je skaliranje putova do 540 milijardi parametara. Prepoznat je kao jedini model koji može učinkovito i djelotvorno generalizirati u brojnim domenama. Pathways u Googleu posvećen je razvoju distribuiranog računarstva za akceleratore.
PaLM je model transformatora samo za dekoder koji je obučen korištenjem sustava Pathways. Prema Googleu, PaLM je uspješno postigao najsuvremeniju izvedbu nekoliko snimaka u nekoliko radnih opterećenja. PaLM je koristio sustav Pathways za proširenje obuke na najveću konfiguraciju sustava temeljenu na TPU-u, po prvi put poznatu kao 6144 čipova.
Skup podataka za obuku za AI-jezični model sastoji se od mješavine engleskih i drugih višejezičnih skupova podataka. Uz vokabular "bez gubitaka", sadrži visokokvalitetni web sadržaj, rasprave, knjige, GitHub kod, Wikipediju i još mnogo toga. Rječnik bez gubitaka prepoznaje se po zadržavanju razmaka i razbijanju Unicode znakova koji nisu u rječniku u bajtove.
PaLM su razvili Google i Pathways koristeći standardnu arhitekturu modela transformatora i konfiguraciju dekodera koja je uključivala SwiGLU aktivaciju, paralelne slojeve, RoPE ugradnje, zajedničke ulazno-izlazne ugradnje, pozornost na više upita i bez predrasuda ili rječnika. PaLM je, s druge strane, spreman pružiti solidnu osnovu za Googleov i Pathwaysov model jezika umjetne inteligencije.
Parametri korišteni za treniranje PaLM-a
Prošle godine, Google je pokrenuo Pathways, jedan model koji se može obučiti da radi tisuće, ako ne i milijune, stvari—nazvan "Arhitektura umjetne inteligencije sljedeće generacije" jer može prevladati ograničenja postojećih modela da budu obučeni da rade samo jednu stvar . Umjesto proširenja mogućnosti postojećih modela, novi se modeli često izgrađuju odozdo prema gore kako bi izvršili jedan zadatak.
Kao rezultat toga, stvorili su desetke tisuća modela za desetke tisuća različitih aktivnosti. Ovo je dugotrajan zadatak koji zahtjeva mnogo resursa.
Google je putem Pathwaysa dokazao da se jedan model može nositi s različitim aktivnostima te koristiti i kombinirati trenutne talente kako bi brže i učinkovitije naučio nove zadatke.
Multimodalni modeli koji uključuju viziju, jezično razumijevanje i slušnu obradu u isto vrijeme mogu biti omogućeni putem putova. Pathways Language Model (PaLM) omogućuje obuku jednog modela na brojnim TPU v4 Podovima zahvaljujući modelu od 540 milijardi parametara.
PaLM, model Transformer samo s gustim dekoderom, nadmašuje najsuvremeniju izvedbu nekoliko snimaka u širokom rasponu radnih opterećenja. PaLM se obučava na dva TPU v4 Poda koji su povezani putem mreže podatkovnog centra (DCN).
Iskorištava prednosti paralelizma modela i podataka. Istraživači su koristili 3072 TPU v4 procesora u svakom Podu za PaLM, koji su bili povezani na 768 hostova. Prema istraživačima, ovo je najveća TPU konfiguracija dosad otkrivena, što im omogućuje skaliranje obuke bez korištenja paralelizma cjevovoda.
Oblaganje cijevi općenito je proces prikupljanja uputa iz CPU-a kroz cjevovod. Slojevi modela podijeljeni su u faze koje se mogu paralelno obrađivati putem paralelizma cjevovodnog modela (ili paralelizma cjevovoda).
Aktivacijska memorija šalje se na sljedeći korak kada jedna faza dovrši prolaz naprijed za mikro-seriju. Gradijenti se zatim šalju unatrag kada sljedeći stupanj završi svoje širenje unatrag.
PaLM Revolucionarne mogućnosti
PaLM pokazuje revolucionarne sposobnosti u nizu teških zadataka. Evo nekoliko primjera:
1. Stvaranje i razumijevanje jezika
PaLM je testiran na 29 različitih NLP zadataka na engleskom jeziku.
U nekoliko slučajeva, PaLM 540B je nadmašio prethodne velike modele kao što su GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla i LaMDA na 28 od 29 zadataka, uključujući zadatke odgovaranja na pitanja u varijanti zatvorene knjige otvorene domene , zadaci za zatvaranje i dovršavanje rečenica, zadaci u stilu Winograda, zadaci čitanja s razumijevanjem u kontekstu, zadaci zdravorazumskog zaključivanja, zadaci SuperGLUE i prirodno zaključivanje.
Na nekoliko BIG zadataka, PaLM pokazuje izvrsne vještine tumačenja prirodnog jezika i generiranja. Na primjer, model može razlikovati uzrok i posljedicu, razumjeti konceptualne kombinacije u određenim situacijama, pa čak i pogoditi film iz emojija. Iako je samo 22% korpusa za obuku neengleski, PaLM ima dobre rezultate na višejezičnim NLP mjerilima, uključujući prijevod, uz NLP zadatke na engleskom jeziku.
2. Obrazloženje
PaLM spaja veličinu modela s poticanjem lanca misli kako bi demonstrirao revolucionarne vještine u izazovima zaključivanja koji zahtijevaju aritmetiku u više koraka ili zdravorazumsko zaključivanje.
Prethodni LLM-ovi, poput Gophera, imali su manje koristi od veličine modela u smislu poboljšanja performansi. PaLM 540B s poticanjem lanca misli dobro se pokazao na tri skupa podataka o aritmetičkom i dva zdravorazumskog razmišljanja.
PaLM nadmašuje prethodni najbolji rezultat od 55%, koji je dobiven finim podešavanjem modela GPT-3 175B sa skupom za obuku od 7500 problema i kombiniranjem s vanjskim kalkulatorom i verifikatorom za rješavanje 58 posto problema u GSM8K, a referentna vrijednost tisuća teških matematičkih pitanja na razini osnovne škole pomoću 8-shot promptinga.
Ovaj novi rezultat posebno je vrijedan pažnje jer se približava prosjeku od 60% prepreka s kojima se suočavaju 9-12-godišnjaci. Također može odgovoriti na originalne šale koje nisu dostupne na internetu.
3. Generiranje koda
LLM se također pokazao dobrim u zadacima kodiranja, uključujući generiranje koda iz opisa prirodnog jezika (text-to-code), prevođenje koda između jezika i rješavanje pogrešaka kompilacije. Unatoč tome što ima samo 5% koda u skupu podataka prije obuke, PaLM 540B dobro radi i kodiranje i zadatke prirodnog jezika u jednom modelu.
Njegova izvedba s nekoliko udaraca je nevjerojatna, jer odgovara fino podešenom Codexu 12B dok trenira s 50 puta manje Python koda. Ovo otkriće podupire prijašnja otkrića da veći modeli mogu biti učinkovitiji za uzorkovanje od manjih modela jer mogu učinkovitije prenijeti učenje iz više programski jezici i podaci na običnom jeziku.
Zaključak
PaLM pokazuje kapacitet Pathways sustava za skaliranje na tisuće akceleratorskih procesora preko dva TPU v4 Pod-a učinkovitim treniranjem modela od 540 milijardi parametara s dobro proučenim, dobro utvrđenim receptom modela Transformer koji sadrži samo dekoder.
Postiže revolucionarne performanse u nekoliko pokušaja u nizu izazova obrade prirodnog jezika, razmišljanja i kodiranja pomičući granice skale modela.
Ostavi odgovor