Velké neuronové sítě, které byly trénovány pro rozpoznávání a generování jazyka, prokázaly v posledních letech vynikající výsledky v řadě úkolů. GPT-3 prokázala, že velké jazykové modely (LLM) lze použít pro výuku několika pokusů a dosáhnout vynikajících výsledků bez nutnosti rozsáhlých dat specifických pro daný úkol nebo změny parametrů modelu.
Google, technologický gigant ze Silicon Valley, představil PaLM, neboli Pathways Language Model, do celosvětového technologického průmyslu jako model příští generace jazyka AI. Google začlenil nový umělá inteligence architektury do PaLM se strategickými cíli zlepšit kvalitu modelu jazyka AI.
V tomto příspěvku podrobně prozkoumáme algoritmus Palm, včetně parametrů používaných k jeho trénování, problému, který řeší, a mnohem více.
Co je to Algoritmus PaLM společnosti Google?
Jazykový model Pathways je co Dlaň znamená. Jedná se o nový algoritmus vyvinutý společností Google za účelem posílení architektury Pathways AI. Hlavním cílem struktury je dělat milion různých činností najednou.
Patří mezi ně vše od dešifrování složitých dat až po deduktivní uvažování. PaLM má schopnost překonat současnou nejmodernější AI i lidi v jazykových a uvažovacích úlohách.
To zahrnuje Few-Shot Learning, které napodobuje, jak se lidé učí nové věci a spojují různé kousky znalostí, aby se vypořádali s novými výzvami, které dosud nebyly viděny, s výhodou stroje, který dokáže využít všechny své znalosti k řešení nových výzev; jedním příkladem této dovednosti v PaLM je její schopnost vysvětlit vtip, který nikdy předtím neslyšel.
PaLM prokázal mnoho průlomových dovedností v různých náročných úkolech, včetně porozumění a tvorby jazyka, vícekrokových činností souvisejících s aritmetickým kódem, logického uvažování, překladu a mnoha dalších.
Prokázala svou schopnost řešit složité problémy pomocí vícejazyčných sad NLP. PaLM může být použit celosvětovým technologickým trhem k rozlišení příčiny a následku, koncepčních kombinací, odlišných her a mnoha dalších věcí.
Může také vytvářet hloubková vysvětlení mnoha kontextů pomocí vícekrokového logického vyvozování, hlubokého jazyka, globálních znalostí a dalších technik.
Jak Google vyvinul algoritmus PaLM?
Pro průlomový výkon Google v PaLM je naplánováno škálování cest až na 540 miliard parametrů. Je uznáván jako jeden model, který dokáže efektivně a efektivně zobecnit napříč mnoha doménami. Pathways ve společnosti Google se věnuje vývoji distribuovaných výpočtů pro akcelerátory.
PaLM je model transformátoru pouze pro dekodér, který byl trénován pomocí systému Pathways. Společnost PaLM podle Googlu úspěšně dosáhla špičkového výkonu v několika pracovních zátěžích. PaLM použil systém Pathways k rozšíření školení na největší konfiguraci systému založenou na TPU, poprvé známou jako čipy 6144.
Tréninková datová sada pro jazykový model AI je tvořena kombinací angličtiny a dalších vícejazyčných datových sad. S „bezztrátovou“ slovní zásobou obsahuje vysoce kvalitní webový obsah, diskuze, knihy, kód GitHub, Wikipedii a mnoho dalších. Bezztrátový slovník je uznáván pro zachování mezer a rozdělení znaků Unicode, které nejsou ve slovníku, na bajty.
PaLM byl vyvinut společností Google a Pathways s využitím standardní architektury modelu transformátoru a konfigurace dekodéru, která zahrnovala aktivaci SwiGLU, paralelní vrstvy, vložení RoPE, sdílené vložení vstupu a výstupu, pozornost při více dotazech a žádné předsudky nebo slovník. PaLM je na druhé straně připraven poskytnout pevný základ pro jazykový model Google a Pathways AI.
Parametry používané k trénování PaLM
Minulý rok Google spustil Pathways, jediný model, který lze trénovat tak, aby dělal tisíce, ne-li miliony věcí – nazvaný „architektura umělé inteligence nové generace“, protože dokáže překonat omezení stávajících modelů spočívající v tom, že jsou trénovány pouze na jednu věc. . Namísto rozšiřování schopností současných modelů jsou nové modely často stavěny zdola nahoru, aby splnily jedinou úlohu.
Díky tomu vytvořili desítky tisíc modelů pro desítky tisíc různých činností. Jedná se o časově i zdrojově náročný úkol.
Google prostřednictvím Pathways dokázal, že jediný model dokáže zvládnout různé aktivity a využít a kombinovat současné talenty, aby se nové úkoly učil rychleji a efektivněji.
Multimodální modely, které zahrnují vidění, lingvistické porozumění a sluchové zpracování současně, mohou být aktivovány prostřednictvím cest. Pathways Language Model (PaLM) umožňuje trénovat jeden model napříč mnoha TPU v4 Pods díky modelu s 540 miliardami parametrů.
PaLM, model Transformeru pouze s hustým dekodérem, překonává nejmodernější výkon několika snímků v široké škále pracovních zátěží. PaLM se trénuje na dvou modulech TPU v4, které jsou propojeny sítí datového centra (DCN).
Využívá výhody paralelního modelu i dat. Výzkumníci použili 3072 procesorů TPU v4 v každém modulu pro PaLM, které byly připojeny k 768 hostitelům. Podle výzkumníků se jedná o největší dosud zveřejněnou konfiguraci TPU, která jim umožňuje škálovat trénink bez použití paralelismu potrubí.
Vložkování potrubí je obecně proces shromažďování instrukcí z CPU prostřednictvím potrubí. Vrstvy modelu jsou rozděleny do fází, které lze paralelně zpracovávat pomocí paralelismu modelu potrubí (nebo paralelismu potrubí).
Aktivační paměť je odeslána do dalšího kroku, když jedna fáze dokončí dopředný průchod pro mikrodávku. Gradienty jsou poté odeslány dozadu, když následující fáze dokončí své zpětné šíření.
Průlomové schopnosti PaLM
PaLM vykazuje průkopnické schopnosti v řadě obtížných úkolů. Zde je několik příkladů:
1. Tvorba a porozumění jazyka
PaLM byl testován na 29 různých NLP úlohách v angličtině.
PaLM 540B překonal předchozí velké modely, jako jsou GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla a LaMDA, na základě několika výstřelů ve 28 z 29 úloh, včetně úloh s odpovědí na otázky s variantou uzavřené knihy v otevřené doméně. , úlohy zavírat a dokončovat věty, úlohy ve stylu Winograd, úlohy čtení s porozuměním v kontextu, úlohy logického uvažování, úlohy SuperGLUE a přirozené vyvozování.
Na několika BIG-bench úlohách prokazuje PaLM vynikající interpretaci přirozeného jazyka a generační dovednosti. Model může například rozlišovat mezi příčinou a následkem, porozumět koncepčním kombinacím v určitých situacích a dokonce uhodnout film z emotikonu. Přestože pouze 22 % tréninkového korpusu není v angličtině, PaLM si vede dobře ve vícejazyčných benchmarkech NLP, včetně překladů, kromě úkolů v angličtině NLP.
2. Odůvodnění
PaLM kombinuje velikost modelu s myšlenkovým nabádáním, aby prokázal průlomové dovednosti v problémech s uvažováním, které vyžadují vícekrokové aritmetické nebo zdravé uvažování.
Předchozí LLM, jako je Gopher, těžily z velikosti modelu méně, pokud jde o zvýšení výkonu. PaLM 540B s řetězovým nabádáním si vedl dobře se třemi aritmetickými a dvěma datovými sadami pro myšlení zdravého rozumu.
PaLM překonává předchozí nejlepší skóre 55 %, které bylo získáno vyladěním modelu GPT-3 175B s trénovací sadou 7500 problémů a jeho kombinací s externím kalkulátorem a ověřovačem k vyřešení 58 procent problémů v GSM8K, a měřítko tisíců obtížných matematických otázek na úrovni základní školy pomocí 8-ranného nabádání.
Toto nové skóre je zvláště pozoruhodné, protože se blíží 60% průměru překážek, se kterými se setkávají děti ve věku 9–12 let. Může také reagovat na originální vtipy, které nejsou dostupné na internetu.
3. Generování kódu
Ukázalo se také, že LLM fungují dobře v úlohách kódování, včetně generování kódu z popisu přirozeného jazyka (text-to-code), překládání kódu mezi jazyky a řešení chyb při kompilaci. Přestože má PaLM 5B v datové sadě před trénováním pouze 540 % kódu, funguje dobře jak při kódování, tak v úlohách přirozeného jazyka v jediném modelu.
Jeho výkon při několika snímcích je neuvěřitelný, protože se vyrovná vyladěnému Codexu 12B při trénování s 50krát méně kódem Pythonu. Toto zjištění se opírá o předchozí zjištění, že větší modely mohou být efektivnější než menší modely, protože mohou efektivněji přenášet učení z více programovací jazyky a data v jednoduchém jazyce.
Proč investovat do čističky vzduchu?
PaLM ukazuje schopnost systému Pathways škálovat na tisíce akceleračních procesorů přes dva TPU v4 Pody efektivním trénováním modelu s 540 miliardami parametrů s dobře prostudovaným a zavedeným receptem modelu Transformer s hustým dekodérem.
Dosahuje průlomového výkonu několika snímků v celé řadě výzev zpracování přirozeného jazyka, uvažování a kódování tím, že posouvá hranice měřítka modelu.
Napsat komentář