Suuret kielimallit: kaikki mitä sinun tarvitsee tietää

Sisällysluettelo[Piilottaa][Näytä]

Mikä on suuri kielimalli?
Miten LLM:itä koulutetaan?+-
- Esikoulutus Transformer-arkkitehtuurilla
- Hienosäätö
Suurten kielimallien rajoitukset+-
Yhteenveto

Klassinen tekoälyn ongelma on ihmisen kieltä ymmärtävän koneen tavoittelu.

Kun esimerkiksi etsit "lähellä olevat italialaiset ravintolat" suosikkihakukoneesi avulla, algoritmin on analysoitava jokainen kyselysi sana ja tulostettava asiaankuuluvat tulokset. Kunnollisen käännössovelluksen on ymmärrettävä tietyn englanninkielisen sanan konteksti ja jollakin tavalla otettava huomioon kielten väliset kielioppierot.

Kaikki nämä tehtävät ja paljon muuta kuuluvat tietojenkäsittelytieteen ala-alaan, joka tunnetaan nimellä Luonnollinen kielen käsittely tai NLP. NLP:n edistyminen on johtanut laajaan valikoimaan käytännön sovelluksia virtuaaliavustajista, kuten Amazonin Alexasta, roskapostisuodattimiin, jotka havaitsevat haitalliset sähköpostit.

Viimeisin läpimurto NLP:ssä on ajatus a suuri kielimalli tai LLM. LLM:t, kuten GPT-3, ovat tulleet niin tehokkaiksi, että ne näyttävät onnistuvan lähes kaikissa NLP-tehtävissä tai käyttötapauksissa.

Tässä artikkelissa tarkastelemme, mitä LLM:t tarkalleen ovat, miten nämä mallit koulutetaan ja mitä rajoituksia niillä on.

Mikä on suuri kielimalli?

Kielimalli on pohjimmiltaan yksinkertaisesti algoritmi, joka tietää, kuinka todennäköisesti sanasarja on kelvollinen lause.

Hyvin yksinkertaisen kielimallin, joka on koulutettu muutamaan sataan kirjaan, pitäisi pystyä kertomaan, että "hän meni kotiin" on pätevämpi kuin "kotiin meni hän".

Jos korvaamme suhteellisen pienen tietojoukon massiivisella Internetistä kaavitulla tietojoukolla, alamme lähestyä ajatusta suuri kielimalli.

Käyttäminen hermoverkkoihin, tutkijat voivat kouluttaa LLM:itä suurella määrällä tekstidataa. Mallin näkemän tekstidatan määrän vuoksi LLM:stä tulee erittäin hyvä ennustamaan sekvenssin seuraava sana.

Mallista tulee niin hienostunut, että se pystyy suorittamaan monia NLP-tehtäviä. Näihin tehtäviin kuuluu tekstin yhteenveto, uudenlaisen sisällön luominen ja jopa ihmismäisen keskustelun simulointi.

suuret kielimallit voivat luoda uutta sisältöä kehotteiden perusteella

Esimerkiksi erittäin suosittu GPT-3-kielimalli on koulutettu yli 175 miljardilla parametrilla, ja sitä pidetään toistaiseksi edistyneimpänä kielimallina.

Se pystyy luomaan toimivaa koodia, kirjoittamaan kokonaisia artikkeleita ja vastaamaan mihin tahansa aiheeseen liittyviin kysymyksiin.

Miten LLM:itä koulutetaan?

Olemme käsitelleet lyhyesti sitä tosiasiaa, että LLM:t ovat suurelta osin velkaa voimastaan koulutustietojensa koosta. On syy, miksi kutsumme niitä "suuriksi" kielimalleiksi.

Esikoulutus Transformer-arkkitehtuurilla

Esikoulutusvaiheessa LLM:t tutustutaan olemassa olevaan tekstidataan kielen yleisen rakenteen ja sääntöjen oppimiseksi.

Muutaman viime vuoden aikana LLM:t ovat saaneet esikoulutusta tietokokonaisuuksiin, jotka kattavat merkittävän osan julkisesta Internetistä. Esimerkiksi GPT-3:n kielimallia opetettiin Yleinen indeksointi tietojoukko, verkkoviestien, verkkosivujen ja digitoitujen kirjojen kokoelma yli 50 miljoonalta verkkotunnukselta.

Massiivinen tietojoukko syötetään sitten malliin, joka tunnetaan nimellä a muuntaja. Muuntajat ovat eräänlainen syvä hermoverkko joka toimii parhaiten peräkkäisille tiedoille.

suuret kielimallit käyttävät muuntajia

Muuntajat käyttävät an kooderi-dekooderi arkkitehtuuri tulon ja lähdön käsittelyyn. Pohjimmiltaan muuntaja sisältää kaksi hermoverkkoa: kooderin ja dekooderin. Enkooderi voi poimia syötetyn tekstin merkityksen ja tallentaa sen vektorina. Sitten dekooderi vastaanottaa vektorin ja tuottaa tulkintansa tekstistä.

Kuitenkin avainkonsepti, jonka ansiosta muuntajaarkkitehtuuri toimi niin hyvin, on a itsehuomiomekanismi. Itse huomioimisen käsite antoi mallille mahdollisuuden kiinnittää huomiota tietyn lauseen tärkeimpiin sanoihin. Mekanismi ottaa huomioon jopa toisistaan kaukana olevien sanojen väliset painot peräkkäin.

Toinen itsetuntemuksen etu on, että prosessia voidaan rinnastaa. Peräkkäisten tietojen käsittelyn sijaan muuntajamallit voivat käsitellä kaikkia tuloja kerralla. Tämän ansiosta muuntajat voivat harjoitella valtavia tietomääriä suhteellisen nopeasti muihin menetelmiin verrattuna.

Hienosäätö

Esiharjoitteluvaiheen jälkeen voit halutessasi esitellä uuden tekstin perus-LLM-harjoitteluun. Kutsumme tätä prosessia hienosäätö ja sitä käytetään usein parantamaan edelleen LLM:n tulosta tietyssä tehtävässä.

Voit esimerkiksi käyttää LLM:ää sisällön luomiseen Twitter-tilillesi. Voimme tarjota mallille useita esimerkkejä aiemmista twiiteistäsi, jotta se saa käsityksen halutusta tuloksesta.

Hienosäätöjä on muutamia erilaisia.

suuret kielimallit pystyvät harvoin oppimaan

Muutama laukaus viittaa prosessiin, jossa mallille annetaan pieni määrä esimerkkejä sillä odotuksella, että kielimalli selvittää, kuinka samanlainen tuloste saadaan aikaan. Yhden laukauksen oppiminen on samanlainen prosessi, paitsi että tarjotaan vain yksi esimerkki.

Suurten kielimallien rajoitukset

LLM:t, kuten GPT-3, pystyvät suorittamaan suuren määrän käyttötapauksia jopa ilman hienosäätöä. Näillä malleilla on kuitenkin edelleen omat rajoituksensa.

Maailman semanttisen ymmärryksen puute

Pinnalla LLM:t näyttävät osoittavan älykkyyttä. Nämä mallit eivät kuitenkaan toimi samalla tavalla ihmisaivot tekee. LLM:t luottavat vain tilastollisiin laskelmiin tuotoksen tuottamiseksi. Heillä ei ole kykyä perustella ideoita ja käsitteitä yksin.

Tästä johtuen LLM voi tuottaa järjettömiä vastauksia yksinkertaisesti siksi, että sanat näyttävät "oikeilta" tai "tilastollisesti todennäköisiltä", kun ne on asetettu kyseiseen järjestykseen.

Hallusinaatiot

GPT-3:n kaltaiset mallit kärsivät myös epätarkoista vastauksista. LLM:t voivat kärsiä ilmiöstä, joka tunnetaan nimellä hallusinaatio jossa mallit tuottavat tosiasiallisesti virheellisen vastauksen ilman tietoisuutta siitä, että vastauksella ei ole todellisuuspohjaa.

Käyttäjä voi esimerkiksi pyytää mallia selittämään Steve Jobsin ajatuksia uusimmasta iPhonesta. Malli voi luoda lainauksen tyhjästä harjoitustietojensa perusteella.

Harha ja rajallinen tieto

Kuten monet muutkin algoritmit, suuret kielimallit ovat taipuvaisia perimään harjoitustiedoissa esiintyviä harhoja. Kun alamme luottaa enemmän LLM:iin tiedon noutamisessa, näiden mallien kehittäjien tulisi löytää tapoja lieventää puolueellisten vastausten mahdollisesti haitallisia vaikutuksia.

Samalla tavalla mallin harjoitustietojen kuolleet pisteet haittaavat myös itse mallia. Tällä hetkellä suurten kielimallien harjoittelu kestää kuukausia. Nämä mallit käyttävät myös tietojoukkoja, joiden laajuus on rajoitettu. Tästä syystä ChatGPT:llä on vain vähän tietoa vuoden 2021 jälkeen tapahtuneista tapahtumista.

Yhteenveto

Suuret kielimallit voivat todella muuttaa tapaamme, jolla olemme vuorovaikutuksessa teknologian ja maailmamme kanssa yleensä.

Internetissä saatavilla oleva valtava määrä tietoa on antanut tutkijoille tavan mallintaa kielen monimutkaisuutta. Matkan varrella nämä kielimallit näyttävät kuitenkin omaksuneen ihmisen kaltaisen ymmärryksen maailmasta sellaisena kuin se on.

Kun yleisö alkaa luottaa näihin kielimalleihin, jotta ne tarjoavat tarkkoja tuloksia, tutkijat ja kehittäjät etsivät jo tapoja lisätä suojakaiteita, jotta tekniikka pysyy eettisenä.

Millainen on mielestäsi LLM:n tulevaisuus?

Suuret kielimallit: kaikki mitä sinun tarvitsee tietää

Mikä on suuri kielimalli?