GPT-3, velká neuronová síť současnosti, byla zveřejněna v květnu 2020 OpenAI, startup s umělou inteligencí, který spoluzaložili Elon Musk a Sam Altman. GPT-3 je špičkový jazykový model se 175 miliardami parametrů ve srovnání s 1,5 miliardami parametrů v jeho předchůdci GPT-2.
GPT-3 překonala NLG Turingův model společnosti Microsoft (Turing Natural Language Generation), který dříve držel rekord největší neuronové sítě se 17 miliardami parametrů.
Jazykový model byl chválen, kritizován a dokonce zkoumán; přinesla také nová a zajímavá využití. A nyní se objevují zprávy, že GPT-4, další vydání OpenAI jazykový model, opravdu brzy přijde.
Pokud se chcete o GPT-4 dozvědět více, jste na správné stránce. V tomto článku se podíváme na GPT-4 podrobně, pokryjeme jeho parametry, srovnání s jinými modely a další.
Takže, co je GPT-4?
Abychom pochopili rozsah GPT-4, musíme nejprve pochopit GPT-3, jeho předchůdce. GPT-3 (Generative Pre-trained Transformer, třetí generace) je autonomní nástroj pro generování obsahu.
Uživatelé zadávají data do a strojové učení podle OpenAI, který může následně produkovat obrovské množství relevantního psaní jako odpověď. GPT-4 bude výrazně lepší v multitaskingu v podmínkách s několika málo záběry – což je typ strojové učení – ještě více přiblížit výsledky těm lidským.
Stavba GPT-3 stojí stovky milionů liber, ale předpokládá se, že GPT-4 bude stát podstatně více, protože bude pětsetkrát větší. Abych to uvedl na pravou míru,
GPT-4 může mít tolik vlastností jako synapse v mozku. GPT-4 bude využívat hlavně stejné metody jako GPT-3, takže spíše než skok v paradigmatu bude GPT-4 rozšiřovat to, co GPT-3 v současnosti dosahuje – ale s výrazně větší schopností odvodit.
GPT-3 umožňovala uživatelům zadávat přirozený jazyk pro praktické účely, ale stále potřebovala určité odborné znalosti k vytvoření výzvy, která by přinesla dobré výsledky. GPT-4 bude výrazně lepší v předpovídání záměrů uživatelů.
Jaké budou parametry GPT-4?
Přestože jde o jeden z nejočekávanějších pokroků v oblasti umělé inteligence, o GPT-4 není nic známo: jak bude vypadat, jaké bude mít vlastnosti a jaké bude mít schopnosti.
Minulý rok Altman udělal Q&A a odhalil pár detailů o ambicích OpenAI pro GPT-4. Podle Altmana by to nebylo větší než GPT-3. GPT-4 pravděpodobně nebude nejpoužívanější jazykový model. I když model bude ve srovnání s předchozími generacemi obrovský neuronové sítě, jeho velikost nebude jeho rozlišovacím znakem. GPT-3 a Gopher jsou nejpravděpodobnější kandidáti (175B-280B).
Nvidia a Microsoft Megatron-Turing NLG držely rekord nejhustší neuronová síť parametry na 530B – trojnásobek oproti GPT-3 – až do nedávné doby, kdy to PaLM od Googlu vzalo na 540B. Překvapivě spousta menších modelů překonala MT-NLG.
Podle power-law spojení Jared Kaplan z OpenAI a jeho kolegové v roce 2020 určili, že když se navýšení rozpočtu na zpracování vynakládá převážně na zvýšení počtu parametrů, výkon se zlepší nejvíce. Google, Nvidia, Microsoft, OpenAI, DeepMind a další jazykové modelovací společnosti poslušně dodržovaly předpisy.
Altman naznačil, že se již nesoustředí na konstrukci masivních modelů, ale spíše na maximalizaci výkonu menších modelů.
Výzkumníci z OpenAI byli prvními zastánci škálovací hypotézy, ale možná zjistili, že další, dříve neobjevené cesty mohou vést k lepším modelům. GPT-4 nebude z těchto důvodů výrazně větší než GPT-3.
OpenAI se více zaměří na další aspekty, jako jsou data, algoritmy, parametrizace a zarovnání, které mají potenciál rychleji přinést významné výhody. Na to, co dokáže model s parametry 100T, si budeme muset počkat.
Klíčové body:
- Velikost modelu: GPT-4 bude větší než GPT-3, ale ne o moc (MT-NLG 530B a PaLM 540B). Velikost modelu bude nepřehlédnutelná.
- Optimalita: GPT-4 bude využívat více zdrojů než GPT-3. Implementuje nové poznatky o optimalitě do parametrizace (optimální hyperparametry) a metod škálování (počet trénovacích tokenů je stejně důležitý jako velikost modelu).
- Multimodalita: GPT-4 bude moci pouze odesílat a přijímat textové zprávy (nikoli multimodální). OpenAI se snaží posunout jazykové modely na jejich limity před přechodem na multimodální modely, jako je např DESKA 2, které předpovídají, že nakonec překoná unimodální systémy.
- Řídkost: GPT-4, stejně jako jeho předchůdci GPT-2 a GPT-3, bude hustý model (všechny parametry budou použity ke zpracování jakéhokoli daného vstupu). V budoucnu bude řídkost nabývat na významu.
- SMĚR: GPT-4 se k nám přiblíží blíže než GPT-3. Uvede to, co se naučil od InstructGPT, který byl vyvinut s lidským vstupem. Konvergence umělé inteligence je však ještě daleko a úsilí by se mělo spíše pečlivě posuzovat než přehánět.
Proč investovat do čističky vzduchu?
Umělá obecná inteligence. Je to velký cíl, ale vývojáři OpenAI pracují na jeho dosažení. Cílem AGI je vytvořit model nebo „agenta“ schopného porozumět a dělat jakoukoli činnost, kterou člověk dokáže.
GPT-4 může být dalším krokem k dosažení tohoto cíle a zní to jako něco ze sci-fi filmu. Mohli byste se divit, jak realistické je dosáhnout AGI.
Podle Raye Kurzweila, ředitele inženýrství společnosti Google, dosáhneme tohoto milníku do roku 2029. S ohledem na to se podívejme hlouběji na GPT-4 a důsledky tohoto modelu, když se přiblížíme k AGI (Artificial General Intelligence).
Napsat komentář