Klasickým problémem umělé inteligence je honba za strojem, který rozumí lidské řeči.
Například při vyhledávání „nedalekých italských restaurací“ ve vašem oblíbeném vyhledávači musí algoritmus analyzovat každé slovo ve vašem dotazu a vygenerovat příslušné výsledky. Slušná překladatelská aplikace bude muset porozumět kontextu konkrétního slova v angličtině a nějak zohlednit rozdíly v gramatice mezi jazyky.
Všechny tyto úkoly a mnohem více spadají do podoblasti informatiky známé jako Zpracování přirozeného jazyka nebo NLP. Pokroky v NLP vedly k široké řadě praktických aplikací od virtuálních asistentů, jako je Amazon Alexa, až po spamové filtry, které detekují škodlivé e-maily.
Nejnovějším průlomem v NLP je myšlenka a velký jazykový model nebo LLM. LLM, jako je GPT-3, se staly tak silnými, že se zdá, že uspějí téměř v každém úkolu nebo případu použití NLP.
V tomto článku se podíváme na to, co přesně LLM jsou, jak jsou tyto modely trénovány a jaká mají aktuální omezení.
Co je velký jazykový model?
Jazykový model je ve svém jádru jednoduše algoritmus, který ví, jak pravděpodobně je posloupnost slov platnou větou.
Velmi jednoduchý jazykový model vyškolený na několika stovkách knih by měl být schopen říci, že „šel domů“ je platnější než „šel domů“.
Pokud nahradíme relativně malý datový soubor masivním datovým souborem seškrábnutým z internetu, začneme se blížit myšlence a velký jazykový model.
Použití neuronové sítěmohou výzkumníci školit LLM na velkém množství textových dat. Vzhledem k množství textových dat, které model viděl, se LLM stává velmi dobrým v předpovídání dalšího slova v sekvenci.
Model se stává tak sofistikovaným, že může provádět mnoho úkolů NLP. Tyto úkoly zahrnují shrnutí textu, vytváření nového obsahu a dokonce simulaci lidské konverzace.
Například velmi populární jazykový model GPT-3 je trénován s více než 175 miliardami parametrů a je považován za dosud nejpokročilejší jazykový model.
Je schopen generovat funkční kód, psát celé články a může se pokusit odpovědět na otázky o jakémkoli tématu.
Jak se školí LLM?
Krátce jsme se dotkli skutečnosti, že LLM vděčí za velkou část své síle velikosti svých tréninkových dat. Existuje důvod, proč je nakonec nazýváme „velké“ jazykové modely.
Předškolní příprava s architekturou Transformer
Během předškolní fáze jsou LLM seznamováni s existujícími textovými daty, aby se naučili obecnou strukturu a pravidla jazyka.
V posledních několika letech byly LLM předem vyškoleny na datových sadách, které pokrývají významnou část veřejného internetu. Například jazykový model GPT-3 byl trénován na datech z Společné procházení dataset, korpus webových příspěvků, webových stránek a digitalizovaných knih seškrábaných z více než 50 milionů domén.
Rozsáhlá datová sada je pak vložena do modelu známého jako a transformátor. Transformátory jsou typem hluboká neuronová síť to funguje nejlépe pro sekvenční data.
Transformátory používají an architektura kodér-dekodér pro manipulaci se vstupem a výstupem. Transformátor v podstatě obsahuje dvě neuronové sítě: kodér a dekodér. Kodér může extrahovat význam vstupního textu a uložit jej jako vektor. Dekodér pak přijme vektor a vytvoří jeho interpretaci textu.
Nicméně klíčový koncept, který umožnil, aby architektura transformátoru tak dobře fungovala, je přidání a mechanismus sebepozornosti. Koncept sebepozornosti umožnil modelu věnovat pozornost nejdůležitějším slovům v dané větě. Mechanismus dokonce bere v úvahu váhy mezi slovy, která jsou sekvenčně daleko od sebe.
Další výhodou sebepozornosti je, že proces lze paralelizovat. Namísto zpracování sekvenčních dat v pořadí mohou modely transformátorů zpracovávat všechny vstupy najednou. To umožňuje transformátorům trénovat na obrovském množství dat relativně rychle ve srovnání s jinými metodami.
Doladění
Po předškolní fázi se můžete rozhodnout, že zavedete nový text pro základní LLM, na kterém budete trénovat. Tento proces nazýváme doladění a často se používá k dalšímu zlepšení výstupu LLM na konkrétním úkolu.
Můžete například chtít použít LLM ke generování obsahu pro váš Twitter účet. Modelu můžeme poskytnout několik příkladů vašich předchozích tweetů, aby měl představu o požadovaném výstupu.
Existuje několik různých typů jemného doladění.
Učení na pár ran odkazuje na proces poskytnutí modelu malého počtu příkladů s očekáváním, že jazykový model zjistí, jak vytvořit podobný výstup. Jednorázové učení je podobný proces s tím rozdílem, že je uveden pouze jeden příklad.
Omezení velkých jazykových modelů
LLM jako GPT-3 jsou schopny provádět velké množství případů použití i bez jemného ladění. Tyto modely však stále přicházejí s vlastní sadou omezení.
Nedostatek sémantického chápání světa
Na povrchu se zdá, že LLM vykazují inteligenci. Tyto modely však nefungují stejným způsobem lidský mozek dělá. LLM se při vytváření výstupu spoléhají výhradně na statistické výpočty. Nemají schopnost samostatně vymýšlet myšlenky a koncepty.
Z tohoto důvodu může LLM vydávat nesmyslné odpovědi jednoduše proto, že slova se zdají být „správná“ nebo „statisticky pravděpodobná“, když jsou umístěna v tomto konkrétním pořadí.
Halucinace
Modely jako GPT-3 také trpí nepřesnými odezvami. LLM mohou trpět fenoménem známým jako halucinace kde modely generují fakticky nesprávnou odpověď, aniž by si uvědomovali, že odpověď nemá žádný základ ve skutečnosti.
Uživatel může například požádat modelku, aby vysvětlila myšlenky Steva Jobse na nejnovější iPhone. Model může generovat nabídku ze vzduchu na základě svých trénovacích dat.
Předsudky a omezené znalosti
Stejně jako mnoho jiných algoritmů jsou velké jazykové modely náchylné zdědit zkreslení přítomná v trénovacích datech. Jak se při získávání informací začínáme více spoléhat na LLM, měli by vývojáři těchto modelů najít způsoby, jak zmírnit potenciálně škodlivé účinky zkreslených odpovědí.
V podobné funkci budou slepé skvrny trénovacích dat modelu také překážet samotnému modelu. V současné době trvá školení velkých jazykových modelů měsíce. Tyto modely také spoléhají na datové sady, které mají omezený rozsah. To je důvod, proč má ChatGPT pouze omezené znalosti o událostech, které nastaly po roce 2021.
Proč investovat do čističky vzduchu?
Velké jazykové modely mají potenciál skutečně změnit způsob, jakým interagujeme s technologií a naším světem obecně.
Obrovské množství dat dostupných na internetu poskytlo výzkumníkům způsob, jak modelovat složitost jazyka. Zdá se však, že tyto jazykové modely po cestě nabraly lidské chápání světa takového, jaký je.
Jak veřejnost začíná důvěřovat těmto jazykovým modelům, že poskytují přesný výstup, výzkumníci a vývojáři již hledají způsoby, jak přidat zábradlí, aby technologie zůstala etická.
Jaká je podle vás budoucnost LLM?
Napsat komentář