A mesterséges intelligencia klasszikus problémája egy olyan gép keresése, amely képes megérteni az emberi nyelvet.
Például amikor a „közeli olasz éttermek” kifejezésre keres a kedvenc keresőjében, egy algoritmusnak elemeznie kell a lekérdezésben szereplő minden egyes szót, és ki kell adnia a releváns találatokat. Egy tisztességes fordítóalkalmazásnak meg kell értenie egy adott szó kontextusát angolul, és valahogyan figyelembe kell vennie a nyelvek közötti nyelvtani különbségeket.
Mindezek a feladatok és még sok más a számítástechnika alterületéhez tartoznak Természetes nyelvi feldolgozás vagy NLP. Az NLP fejlődése gyakorlati alkalmazások széles skáláját eredményezte a virtuális asszisztensektől, például az Amazon Alexától a rosszindulatú e-maileket észlelő spamszűrőkig.
Az NLP legújabb áttörése az a gondolat, hogy a nagy nyelvi modell vagy LLM. Az olyan LLM-ek, mint a GPT-3, olyan erősek lettek, hogy úgy tűnik, szinte minden NLP-feladatban vagy használati esetben sikeresek.
Ebben a cikkben megvizsgáljuk, hogy pontosan mik is az LLM-ek, hogyan képezik ezeket a modelleket, és milyen jelenlegi korlátaik vannak.
Mi az a nagy nyelvi modell?
A nyelvi modell lényegében egyszerűen egy algoritmus, amely tudja, mennyire valószínű, hogy egy szósorozat érvényes mondat.
Egy nagyon egyszerű, néhány száz könyvre kiképzett nyelvi modellnek képesnek kell lennie arra, hogy megmondja, hogy a „Hazament” érvényesebb, mint a „Haza ment”.
Ha a viszonylag kis adatkészletet lecseréljük egy hatalmas, az internetről lekapart adatkészletre, akkor elkezdünk közeledni egy nagy nyelvi modell.
<p></p> neurális hálózatok, a kutatók nagy mennyiségű szöveges adatra képezhetik az LLM-eket. A modell által látott szöveges adatok mennyisége miatt az LLM nagyon jól megjósolja a sorozat következő szavát.
A modell annyira kifinomulttá válik, hogy számos NLP-feladatot el tud végezni. Ezek a feladatok közé tartozik a szövegösszegzés, az újszerű tartalom létrehozása, sőt az emberszerű beszélgetés szimulálása is.
Például a rendkívül népszerű GPT-3 nyelvi modellt több mint 175 milliárd paraméterrel tanítják, és ez az eddigi legfejlettebb nyelvi modell.
Képes működő kódot generálni, teljes cikkeket írni, és bármilyen témával kapcsolatos kérdéseket megválaszol.
Hogyan képezik az LLM-eket?
Röviden érintettük azt a tényt, hogy az LLM-ek erejük nagy részét a képzési adataik méretének köszönhetik. Megvan az oka annak, hogy mégis „nagy” nyelvi modelleknek nevezzük őket.
Előképzés Transformer Architecture segítségével
Az előképzési szakaszban az LLM-ek megismerkednek a meglévő szövegadatokkal, hogy megtanulják a nyelv általános szerkezetét és szabályait.
Az elmúlt néhány évben az LLM-eket olyan adatkészletekre képezték ki, amelyek a nyilvános internet jelentős részét lefedik. Például a GPT-3 nyelvi modelljét a Közös feltérképezés adatkészlet, több mint 50 millió domainről összegyűjtött internetes bejegyzésekből, weboldalakból és digitalizált könyvekből álló korpusz.
A hatalmas adatkészletet ezután egy a. néven ismert modellbe táplálják be transzformátor. A transzformátorok egy fajtája mély ideghálózat amely szekvenciális adatok esetén működik a legjobban.
A transzformátorok egy kódoló-dekódoló architektúra bemenetek és kimenetek kezelésére. A transzformátor lényegében két neurális hálózatot tartalmaz: egy kódolót és egy dekódert. A kódoló ki tudja bontani a bemeneti szöveg jelentését és vektorként tárolni. A dekódoló ezután megkapja a vektort, és elkészíti a szöveg értelmezését.
Azonban a kulcsfontosságú koncepció, amely lehetővé tette a transzformátor architektúra olyan jól működését, az a önfigyelő mechanizmus. Az önfigyelem fogalma lehetővé tette a modell számára, hogy az adott mondat legfontosabb szavaira figyeljen. A mechanizmus még az egymástól távol eső szavak közötti súlyokat is figyelembe veszi.
Az önfigyelés másik előnye, hogy a folyamat párhuzamosítható. A szekvenciális adatok sorrendben történő feldolgozása helyett a transzformátormodellek az összes bemenetet egyszerre tudják feldolgozni. Ez lehetővé teszi a transzformátorok számára, hogy más módszerekhez képest viszonylag gyorsan tanuljanak hatalmas mennyiségű adatra.
Finomhangolás
Az előképzési szakasz után választhat, hogy új szöveget vezet be az alap LLM számára a képzéshez. Ezt a folyamatot hívjuk finomhangolás és gyakran használják az LLM kimenetének további javítására egy adott feladatnál.
Például érdemes lehet LLM-et használni a Twitter-fiókja tartalmának létrehozásához. A modellt számos példával elláthatjuk korábbi tweetjeiből, hogy képet kapjon a kívánt kimenetről.
A finomhangolásnak néhány fajtája létezik.
Kevés lövésű tanulás arra a folyamatra utal, hogy egy modellnek néhány példát adunk azzal az elvárással, hogy a nyelvi modell kitalálja, hogyan lehet hasonló kimenetet készíteni. Egyszeri tanulás egy hasonló folyamat, kivéve egyetlen példát.
A nagy nyelvi modellek korlátai
Az olyan LLM-ek, mint a GPT-3, nagyszámú használati esetet képesek végrehajtani még finomhangolás nélkül is. Ezek a modellek azonban továbbra is megvannak a maguk korlátozásai.
A világ szemantikai megértésének hiánya
A felszínen úgy tűnik, hogy az LLM-ek intelligenciát mutatnak. Ezek a modellek azonban nem működnek ugyanúgy emberi agy csinál. Az LLM-ek kizárólag statisztikai számításokra támaszkodnak a kimenet létrehozására. Nincs lehetőségük arra, hogy önállóan kigondolják az ötleteket és koncepciókat.
Emiatt az LLM értelmetlen válaszokat adhat ki egyszerűen azért, mert a szavak „helyesnek” vagy „statisztikailag valószínűnek” tűnnek, ha az adott sorrendben vannak elhelyezve.
Hallucinációk
Az olyan modellek, mint a GPT-3, szintén pontatlan válaszokat szenvednek. Az LLM-ek szenvedhetnek az úgynevezett jelenségtől hallucináció ahol a modellek tényszerűen helytelen választ adnak ki anélkül, hogy tudatában lenne annak, hogy a válasznak nincs valóságalapja.
Például egy felhasználó megkérheti a modellt, hogy magyarázza el Steve Jobs gondolatait a legújabb iPhone-ról. A modell árajánlatot generálhat levegőből a képzési adatai alapján.
Elfogultságok és korlátozott tudás
Sok más algoritmushoz hasonlóan a nagy nyelvi modellek is hajlamosak örökölni a betanítási adatokban jelenlévő torzításokat. Ahogy kezdünk egyre inkább az LLM-ekre hagyatkozni az információk lekérésében, a modellek fejlesztőinek meg kell találniuk a módját az elfogult válaszok potenciálisan káros hatásainak enyhítésére.
Hasonló minőségben a modell betanítási adatainak vakfoltjai magát a modellt is akadályozzák. Jelenleg a nagy nyelvi modellek betanítása hónapokig tart. Ezek a modellek korlátozott hatókörű adatkészletekre is támaszkodnak. Ez az oka annak, hogy a ChatGPT csak korlátozottan ismeri a 2021 után történt eseményeket.
Következtetés
A nagy nyelvi modellek valóban megváltoztathatják a technológiával és általában a világgal való interakciót.
Az interneten elérhető hatalmas mennyiségű adat lehetőséget adott a kutatóknak a nyelv bonyolultságának modellezésére. Mindazonáltal úgy tűnik, hogy ezek a nyelvi modellek az út során a világ emberszerű felfogására ébredtek.
Ahogy a közvélemény kezd megbízni ezekben a nyelvi modellekben, hogy pontos eredményeket biztosítanak, a kutatók és a fejlesztők már keresik a módját a védőkorlátok hozzáadásának, hogy a technológia etikus maradjon.
Ön szerint mi az LLM jövője?
Hagy egy Válaszol