Klasickým problémom v umelej inteligencii je hľadanie stroja, ktorý dokáže porozumieť ľudskej reči.
Napríklad pri vyhľadávaní výrazu „neďaleké talianske reštaurácie“ vo vašom obľúbenom vyhľadávacom nástroji musí algoritmus analyzovať každé slovo vo vašom dopyte a vygenerovať relevantné výsledky. Slušná prekladateľská aplikácia bude musieť pochopiť kontext konkrétneho slova v angličtine a nejakým spôsobom zohľadniť rozdiely v gramatike medzi jazykmi.
Všetky tieto úlohy a ešte oveľa viac spadajú do podoblasti informatiky známej ako Spracovanie prirodzeného jazyka alebo NLP. Pokroky v NLP viedli k širokému spektru praktických aplikácií od virtuálnych asistentov, ako je Amazon Alexa, až po spamové filtre, ktoré detegujú škodlivé e-maily.
Najnovším prelomom v NLP je myšlienka a veľký jazykový model alebo LLM. LLM ako GPT-3 sa stali tak silnými, že sa zdá, že uspejú v takmer každej úlohe alebo prípadu použitia NLP.
V tomto článku sa pozrieme na to, čo presne sú LLM, ako sú tieto modely trénované a aké majú aktuálne obmedzenia.
Čo je veľký jazykový model?
Vo svojom jadre je jazykový model jednoducho algoritmus, ktorý vie, s akou pravdepodobnosťou je sekvencia slov platnou vetou.
Veľmi jednoduchý jazykový model vyškolený na niekoľkých stovkách kníh by mal vedieť povedať, že „Išiel domov“ je platnejšie ako „Išiel domov“.
Ak nahradíme relatívne malý súbor údajov masívnym súborom údajov stiahnutým z internetu, začneme sa približovať k myšlienke a veľký jazykový model.
Použitím neurálne siete, môžu výskumníci trénovať LLM na veľkom množstve textových údajov. Kvôli množstvu textových údajov, ktoré model videl, sa LLM stáva veľmi dobrým pri predpovedaní ďalšieho slova v sekvencii.
Model sa stáva tak sofistikovaným, že dokáže vykonávať množstvo úloh NLP. Tieto úlohy zahŕňajú sumarizáciu textu, vytváranie nového obsahu a dokonca simuláciu konverzácie podobnej ľuďom.
Napríklad veľmi populárny jazykový model GPT-3 je trénovaný s viac ako 175 miliardami parametrov a je považovaný za doteraz najpokročilejší jazykový model.
Je schopný generovať pracovný kód, písať celé články a môže sa pokúsiť odpovedať na otázky o akejkoľvek téme.
Ako sa školia LLM?
Stručne sme sa dotkli skutočnosti, že LLM vďačia za veľkú časť svojej sily veľkosti svojich tréningových dát. Existuje dôvod, prečo ich napokon nazývame „veľké“ jazykové modely.
Predškolenie s architektúrou Transformer
Počas prípravnej fázy sú LLM predstavené existujúcim textovým údajom, aby sa naučili všeobecnú štruktúru a pravidlá jazyka.
V posledných rokoch boli LLM vopred vyškolení na súboroch údajov, ktoré pokrývajú významnú časť verejného internetu. Napríklad jazykový model GPT-3 bol trénovaný na údajoch z Spoločné prechádzanie dataset, korpus webových príspevkov, webových stránok a digitalizovaných kníh zoškrabaných z viac ako 50 miliónov domén.
Masívny súbor údajov sa potom vloží do modelu známeho ako a transformátor. Transformátory sú typom hlboká neurónová sieť to funguje najlepšie pre sekvenčné dáta.
Transformátory používajú an architektúra kódovač-dekodér na manipuláciu so vstupom a výstupom. Transformátor v podstate obsahuje dve neurónové siete: kodér a dekodér. Kódovač dokáže extrahovať význam vstupného textu a uložiť ho ako vektor. Dekodér potom prijme vektor a vytvorí jeho interpretáciu textu.
Avšak kľúčovým konceptom, ktorý umožnil, aby architektúra transformátora tak dobre fungovala, je pridanie a mechanizmus sebapozorovania. Koncept sebapozornosti umožnil modelke venovať pozornosť najdôležitejším slovám v danej vete. Mechanizmus dokonca zohľadňuje váhy medzi slovami, ktoré sú od seba vzdialené.
Ďalšou výhodou vlastnej pozornosti je, že proces môže byť paralelizovaný. Namiesto spracovania sekvenčných údajov v poradí môžu modely transformátorov spracovať všetky vstupy naraz. To umožňuje transformátorom trénovať na obrovských množstvách údajov relatívne rýchlo v porovnaní s inými metódami.
Doladenie
Po fáze predtréningu si môžete zvoliť zavedenie nového textu pre základný LLM, na ktorom budete trénovať. Tento proces nazývame dolaďovanie a často sa používa na ďalšie zlepšenie výstupu LLM pri konkrétnej úlohe.
Môžete napríklad chcieť použiť LLM na generovanie obsahu pre váš účet Twitter. Modelu môžeme poskytnúť niekoľko príkladov vašich predchádzajúcich tweetov, aby mal predstavu o požadovanom výstupe.
Existuje niekoľko rôznych typov jemného doladenia.
Učenie na málo rany sa vzťahuje na proces poskytnutia modelu malého počtu príkladov s očakávaním, že jazykový model príde na to, ako vytvoriť podobný výstup. Jednorazové učenie je podobný proces s výnimkou, že je poskytnutý iba jeden príklad.
Obmedzenia veľkých jazykových modelov
LLM ako GPT-3 sú schopné vykonávať veľké množstvo prípadov použitia aj bez jemného ladenia. Tieto modely však stále majú svoje vlastné obmedzenia.
Nedostatok sémantického chápania sveta
Na povrchu sa zdá, že LLM vykazujú inteligenciu. Tieto modely však nefungujú rovnakým spôsobom ľudského mozgu robí. LLM sa pri vytváraní výstupu spoliehajú výlučne na štatistické výpočty. Nemajú kapacitu samostatne vychádzať z myšlienok a konceptov.
Z tohto dôvodu môže LLM vydávať nezmyselné odpovede jednoducho preto, že slová sa zdajú byť „správne“ alebo „štatisticky pravdepodobné“, keď sú umiestnené v tomto konkrétnom poradí.
halucinácie
Modely ako GPT-3 tiež trpia nepresnými odozvami. LLM môžu trpieť fenoménom známym ako halucinácie kde modely produkujú fakticky nesprávnu odpoveď bez toho, aby si uvedomovali, že odpoveď nemá žiadny základ v realite.
Používateľ môže napríklad požiadať modelku, aby vysvetlila myšlienky Steva Jobsa o najnovšom iPhone. Model môže vygenerovať cenovú ponuku zo vzduchu na základe svojich tréningových údajov.
Predsudky a obmedzené znalosti
Rovnako ako mnoho iných algoritmov, aj veľké jazykové modely sú náchylné dediť odchýlky prítomné v trénovacích údajoch. Keď sa pri získavaní informácií začneme viac spoliehať na LLM, vývojári týchto modelov by mali nájsť spôsoby, ako zmierniť potenciálne škodlivé účinky skreslených odpovedí.
V podobnej funkcii budú slepé miesta tréningových údajov modelu brániť aj samotnému modelu. V súčasnosti trvá príprava veľkých jazykových modelov mesiace. Tieto modely sa tiež spoliehajú na súbory údajov, ktorých rozsah je obmedzený. To je dôvod, prečo má ChatGPT iba obmedzené znalosti o udalostiach, ktoré sa vyskytli po roku 2021.
záver
Veľké jazykové modely majú potenciál skutočne zmeniť spôsob, akým interagujeme s technológiou a naším svetom vo všeobecnosti.
Obrovské množstvo údajov dostupných na internete umožnilo výskumníkom modelovať zložitosť jazyka. Zdá sa však, že tieto jazykové modely nadobudli ľudské chápanie sveta takého, aký je.
Keď verejnosť začína dôverovať týmto jazykovým modelom, že poskytujú presný výstup, výskumníci a vývojári už nachádzajú spôsoby, ako pridať ochranné zábradlie, aby technológia zostala etická.
Aká je podľa vás budúcnosť LLM?
Nechaj odpoveď