Klassinen tekoälyn ongelma on ihmisen kieltä ymmärtävän koneen tavoittelu.
Kun esimerkiksi etsit "lähellä olevat italialaiset ravintolat" suosikkihakukoneesi avulla, algoritmin on analysoitava jokainen kyselysi sana ja tulostettava asiaankuuluvat tulokset. Kunnollisen käännössovelluksen on ymmärrettävä tietyn englanninkielisen sanan konteksti ja jollakin tavalla otettava huomioon kielten väliset kielioppierot.
Kaikki nämä tehtävät ja paljon muuta kuuluvat tietojenkäsittelytieteen ala-alaan, joka tunnetaan nimellä Luonnollinen kielen käsittely tai NLP. NLP:n edistyminen on johtanut laajaan valikoimaan käytännön sovelluksia virtuaaliavustajista, kuten Amazonin Alexasta, roskapostisuodattimiin, jotka havaitsevat haitalliset sähköpostit.
Viimeisin läpimurto NLP:ssä on ajatus a suuri kielimalli tai LLM. LLM:t, kuten GPT-3, ovat tulleet niin tehokkaiksi, että ne näyttävät onnistuvan lähes kaikissa NLP-tehtävissä tai käyttötapauksissa.
Tässä artikkelissa tarkastelemme, mitä LLM:t tarkalleen ovat, miten nämä mallit koulutetaan ja mitä rajoituksia niillä on.
Mikä on suuri kielimalli?
Kielimalli on pohjimmiltaan yksinkertaisesti algoritmi, joka tietää, kuinka todennäköisesti sanasarja on kelvollinen lause.
Hyvin yksinkertaisen kielimallin, joka on koulutettu muutamaan sataan kirjaan, pitäisi pystyä kertomaan, että "hän meni kotiin" on pätevämpi kuin "kotiin meni hän".
Jos korvaamme suhteellisen pienen tietojoukon massiivisella Internetistä kaavitulla tietojoukolla, alamme lähestyä ajatusta suuri kielimalli.
Käyttäminen hermoverkkoihin, tutkijat voivat kouluttaa LLM:itä suurella määrällä tekstidataa. Mallin näkemän tekstidatan määrän vuoksi LLM:stä tulee erittäin hyvä ennustamaan sekvenssin seuraava sana.
Mallista tulee niin hienostunut, että se pystyy suorittamaan monia NLP-tehtäviä. Näihin tehtäviin kuuluu tekstin yhteenveto, uudenlaisen sisällön luominen ja jopa ihmismäisen keskustelun simulointi.
Esimerkiksi erittäin suosittu GPT-3-kielimalli on koulutettu yli 175 miljardilla parametrilla, ja sitä pidetään toistaiseksi edistyneimpänä kielimallina.
Se pystyy luomaan toimivaa koodia, kirjoittamaan kokonaisia artikkeleita ja vastaamaan mihin tahansa aiheeseen liittyviin kysymyksiin.
Miten LLM:itä koulutetaan?
Olemme käsitelleet lyhyesti sitä tosiasiaa, että LLM:t ovat suurelta osin velkaa voimastaan koulutustietojensa koosta. On syy, miksi kutsumme niitä "suuriksi" kielimalleiksi.
Esikoulutus Transformer-arkkitehtuurilla
Esikoulutusvaiheessa LLM:t tutustutaan olemassa olevaan tekstidataan kielen yleisen rakenteen ja sääntöjen oppimiseksi.
Muutaman viime vuoden aikana LLM:t ovat saaneet esikoulutusta tietokokonaisuuksiin, jotka kattavat merkittävän osan julkisesta Internetistä. Esimerkiksi GPT-3:n kielimallia opetettiin Yleinen indeksointi tietojoukko, verkkoviestien, verkkosivujen ja digitoitujen kirjojen kokoelma yli 50 miljoonalta verkkotunnukselta.
Massiivinen tietojoukko syötetään sitten malliin, joka tunnetaan nimellä a muuntaja. Muuntajat ovat eräänlainen syvä hermoverkko joka toimii parhaiten peräkkäisille tiedoille.
Muuntajat käyttävät an kooderi-dekooderi arkkitehtuuri tulon ja lähdön käsittelyyn. Pohjimmiltaan muuntaja sisältää kaksi hermoverkkoa: kooderin ja dekooderin. Enkooderi voi poimia syötetyn tekstin merkityksen ja tallentaa sen vektorina. Sitten dekooderi vastaanottaa vektorin ja tuottaa tulkintansa tekstistä.
Kuitenkin avainkonsepti, jonka ansiosta muuntajaarkkitehtuuri toimi niin hyvin, on a itsehuomiomekanismi. Itse huomioimisen käsite antoi mallille mahdollisuuden kiinnittää huomiota tietyn lauseen tärkeimpiin sanoihin. Mekanismi ottaa huomioon jopa toisistaan kaukana olevien sanojen väliset painot peräkkäin.
Toinen itsetuntemuksen etu on, että prosessia voidaan rinnastaa. Peräkkäisten tietojen käsittelyn sijaan muuntajamallit voivat käsitellä kaikkia tuloja kerralla. Tämän ansiosta muuntajat voivat harjoitella valtavia tietomääriä suhteellisen nopeasti muihin menetelmiin verrattuna.
Hienosäätö
Esiharjoitteluvaiheen jälkeen voit halutessasi esitellä uuden tekstin perus-LLM-harjoitteluun. Kutsumme tätä prosessia hienosäätö ja sitä käytetään usein parantamaan edelleen LLM:n tulosta tietyssä tehtävässä.
Voit esimerkiksi käyttää LLM:ää sisällön luomiseen Twitter-tilillesi. Voimme tarjota mallille useita esimerkkejä aiemmista twiiteistäsi, jotta se saa käsityksen halutusta tuloksesta.
Hienosäätöjä on muutamia erilaisia.
Muutama laukaus viittaa prosessiin, jossa mallille annetaan pieni määrä esimerkkejä sillä odotuksella, että kielimalli selvittää, kuinka samanlainen tuloste saadaan aikaan. Yhden laukauksen oppiminen on samanlainen prosessi, paitsi että tarjotaan vain yksi esimerkki.
Suurten kielimallien rajoitukset
LLM:t, kuten GPT-3, pystyvät suorittamaan suuren määrän käyttötapauksia jopa ilman hienosäätöä. Näillä malleilla on kuitenkin edelleen omat rajoituksensa.
Maailman semanttisen ymmärryksen puute
Pinnalla LLM:t näyttävät osoittavan älykkyyttä. Nämä mallit eivät kuitenkaan toimi samalla tavalla ihmisaivot tekee. LLM:t luottavat vain tilastollisiin laskelmiin tuotoksen tuottamiseksi. Heillä ei ole kykyä perustella ideoita ja käsitteitä yksin.
Tästä johtuen LLM voi tuottaa järjettömiä vastauksia yksinkertaisesti siksi, että sanat näyttävät "oikeilta" tai "tilastollisesti todennäköisiltä", kun ne on asetettu kyseiseen järjestykseen.
Hallusinaatiot
GPT-3:n kaltaiset mallit kärsivät myös epätarkoista vastauksista. LLM:t voivat kärsiä ilmiöstä, joka tunnetaan nimellä hallusinaatio jossa mallit tuottavat tosiasiallisesti virheellisen vastauksen ilman tietoisuutta siitä, että vastauksella ei ole todellisuuspohjaa.
Käyttäjä voi esimerkiksi pyytää mallia selittämään Steve Jobsin ajatuksia uusimmasta iPhonesta. Malli voi luoda lainauksen tyhjästä harjoitustietojensa perusteella.
Harha ja rajallinen tieto
Kuten monet muutkin algoritmit, suuret kielimallit ovat taipuvaisia perimään harjoitustiedoissa esiintyviä harhoja. Kun alamme luottaa enemmän LLM:iin tiedon noutamisessa, näiden mallien kehittäjien tulisi löytää tapoja lieventää puolueellisten vastausten mahdollisesti haitallisia vaikutuksia.
Samalla tavalla mallin harjoitustietojen kuolleet pisteet haittaavat myös itse mallia. Tällä hetkellä suurten kielimallien harjoittelu kestää kuukausia. Nämä mallit käyttävät myös tietojoukkoja, joiden laajuus on rajoitettu. Tästä syystä ChatGPT:llä on vain vähän tietoa vuoden 2021 jälkeen tapahtuneista tapahtumista.
Yhteenveto
Suuret kielimallit voivat todella muuttaa tapaamme, jolla olemme vuorovaikutuksessa teknologian ja maailmamme kanssa yleensä.
Internetissä saatavilla oleva valtava määrä tietoa on antanut tutkijoille tavan mallintaa kielen monimutkaisuutta. Matkan varrella nämä kielimallit näyttävät kuitenkin omaksuneen ihmisen kaltaisen ymmärryksen maailmasta sellaisena kuin se on.
Kun yleisö alkaa luottaa näihin kielimalleihin, jotta ne tarjoavat tarkkoja tuloksia, tutkijat ja kehittäjät etsivät jo tapoja lisätä suojakaiteita, jotta tekniikka pysyy eettisenä.
Millainen on mielestäsi LLM:n tulevaisuus?
Jätä vastaus