'n Klassieke probleem in kunsmatige intelligensie is die strewe na 'n masjien wat menslike taal kan verstaan.
Byvoorbeeld, wanneer jy na "naby Italiaanse restaurante" op jou gunsteling soekenjin soek, moet 'n algoritme elke woord in jou navraag ontleed en die relevante resultate uitvoer. 'n Ordentlike vertaaltoepassing sal die konteks van 'n spesifieke woord in Engels moet verstaan en op een of ander manier rekening moet hou met die verskille in grammatika tussen tale.
Al hierdie take en nog baie meer val onder die subveld van rekenaarwetenskap bekend as Natuurlike taal verwerking of NLP. Vooruitgang in NLP het gelei tot 'n wye verskeidenheid praktiese toepassings van virtuele assistente soos Amazon se Alexa tot strooiposfilters wat kwaadwillige e-pos opspoor.
Die mees onlangse deurbraak in NLP is die idee van 'n groot taalmodel of LLM. LLM's soos GPT-3 het so kragtig geword dat dit lyk of hulle in byna enige NLP-taak of -gebruiksgeval slaag.
In hierdie artikel sal ons kyk na wat presies LLM's is, hoe hierdie modelle opgelei word en die huidige beperkings wat hulle het.
Wat is 'n groot taalmodel?
In sy kern is 'n taalmodel bloot 'n algoritme wat weet hoe waarskynlik 'n ry woorde 'n geldige sin is.
'n Baie eenvoudige taalmodel wat op 'n paar honderd boeke opgelei is, behoort te kan sê dat "Hy het huis toe gegaan" meer geldig is as "Huis gegaan hy".
As ons die relatief klein datastel vervang met 'n massiewe datastel wat van die internet geskraap is, begin ons die idee van 'n benader groot taalmodel.
Die gebruik van neurale netwerke, kan navorsers LLM's oplei op 'n groot hoeveelheid teksdata. As gevolg van die hoeveelheid teksdata wat die model gesien het, word die LLM baie goed om die volgende woord in 'n ry te voorspel.
Die model word so gesofistikeerd dat dit baie NLP-take kan verrig. Hierdie take sluit in die opsomming van teks, die skep van nuwe inhoud, en selfs die simulering van mensagtige gesprek.
Byvoorbeeld, die hoogs gewilde GPT-3-taalmodel is opgelei met meer as 175 miljard parameters en word beskou as die mees gevorderde taalmodel tot dusver.
Dit is in staat om werkende kode te genereer, hele artikels te skryf, en kan 'n kans neem om vrae oor enige onderwerp te beantwoord.
Hoe word LLM's opgelei?
Ons het kortliks die feit aangeraak dat LLM's baie van hul krag te danke het aan die grootte van hul opleidingsdata. Daar is 'n rede hoekom ons hulle tog "groot" taalmodelle noem.
Vooropleiding met 'n transformator-argitektuur
Tydens die vooropleidingstadium word LLM'e aan bestaande teksdata bekendgestel om die algemene struktuur en reëls van 'n taal te leer.
In die afgelope paar jaar is LLM's vooraf opgelei op datastelle wat 'n beduidende deel van die openbare internet dek. Byvoorbeeld, GPT-3 se taalmodel is opgelei op data van die Gewone kruip datastel, 'n korpus van webplasings, webblaaie en gedigitaliseerde boeke wat van meer as 50 miljoen domeine geskraap is.
Die massiewe datastel word dan ingevoer in 'n model bekend as a transformator. Transformators is 'n tipe van diep neurale netwerk wat die beste werk vir opeenvolgende data.
Transformators gebruik 'n enkodeerder-dekodeerder argitektuur vir die hantering van insette en afvoer. In wese bevat die transformator twee neurale netwerke: 'n enkodeerder en 'n dekodeerder. Die enkodeerder kan die betekenis van die invoerteks onttrek en dit as 'n vektor stoor. Die dekodeerder ontvang dan die vektor en produseer sy interpretasie van die teks.
Die sleutelkonsep wat die transformator-argitektuur egter so goed laat werk het, is die byvoeging van 'n self-aandag meganisme. Die konsep van selfaandag het die model toegelaat om aandag te gee aan die belangrikste woorde in 'n gegewe sin. Die meganisme oorweeg selfs die gewigte tussen woorde wat ver uitmekaar is, opeenvolgend.
Nog 'n voordeel van selfaandag is dat die proses geparalleliseer kan word. In plaas daarvan om opeenvolgende data in volgorde te verwerk, kan transformatormodelle alle insette gelyktydig verwerk. Dit stel transformators in staat om relatief vinnig op groot hoeveelhede data op te lei in vergelyking met ander metodes.
Fyn instelling
Na die voor-opleidingstadium kan jy kies om nuwe teks bekend te stel vir die basis LLM om op te oefen. Ons noem hierdie proses fyn instelling en word dikwels gebruik om die uitset van die LLM op 'n spesifieke taak verder te verbeter.
Byvoorbeeld, jy wil dalk 'n LLM gebruik om inhoud vir jou Twitter-rekening te genereer. Ons kan die model voorsien van verskeie voorbeelde van jou vorige tweets om dit 'n idee te gee van die verlangde uitset.
Daar is 'n paar verskillende tipes fynverstellings.
Min skoot leer verwys na die proses om 'n model 'n klein aantal voorbeelde te gee met die verwagting dat die taalmodel sal uitvind hoe om soortgelyke uitset te maak. Een skoot leer is 'n soortgelyke proses behalwe dat slegs 'n enkele voorbeeld verskaf word.
Beperkings van groot taalmodelle
LLM's soos GPT-3 is in staat om 'n groot aantal gebruiksgevalle uit te voer, selfs sonder om te verfyn. Hierdie modelle het egter steeds hul eie stel beperkings.
Gebrek aan 'n semantiese begrip van die wêreld
Op die oppervlak blyk dit dat LLM's intelligensie vertoon. Hierdie modelle werk egter nie op dieselfde manier as die nie menslike brein doen. LLM's maak slegs staat op statistiese berekeninge om uitset te genereer. Hulle het nie die vermoë om idees en konsepte op hul eie uit te redeneer nie.
As gevolg hiervan kan 'n LLM onsinnige antwoorde gee bloot omdat die woorde "reg" of "statisties waarskynlik" lyk wanneer dit in daardie spesifieke volgorde geplaas word.
hallusinasies
Modelle soos GPT-3 ly ook aan onakkurate reaksies. LLM's kan ly aan 'n verskynsel bekend as hallucinatie waar modelle 'n feitelik verkeerde reaksie afstuur sonder enige bewustheid dat die reaksie geen basis in die werklikheid het nie.
Byvoorbeeld, 'n gebruiker kan die model vra om Steve Jobs se gedagtes oor die nuutste iPhone te verduidelik. Die model kan 'n kwotasie uit dun lug genereer gebaseer op sy opleidingsdata.
Vooroordele en beperkte kennis
Soos baie ander algoritmes, is groot taalmodelle geneig om die vooroordele wat in die opleidingsdata voorkom, te erf. Soos ons meer op LLM's begin staatmaak om inligting te verkry, moet die ontwikkelaars van hierdie modelle maniere vind om die potensieel skadelike gevolge van bevooroordeelde reaksies te versag.
In 'n soortgelyke hoedanigheid sal die blindekolle van die model se opleidingsdata ook die model self belemmer. Tans neem groot taalmodelle maande om op te lei. Hierdie modelle maak ook staat op datastelle wat in omvang beperk is. Dit is hoekom ChatGPT slegs beperkte kennis het van gebeure wat verby 2021 plaasgevind het.
Gevolgtrekking
Groot taalmodelle het die potensiaal om werklik te verander hoe ons met tegnologie en ons wêreld in die algemeen omgaan.
Die groot hoeveelheid data wat op die internet beskikbaar is, het navorsers 'n manier gegee om die kompleksiteit van taal te modelleer. Dit lyk egter of hierdie taalmodelle langs die pad 'n mensagtige begrip van die wêreld soos dit is, opgetel het.
Namate die publiek hierdie taalmodelle begin vertrou om akkurate uitset te verskaf, vind navorsers en ontwikkelaars reeds maniere om veiligheidsrelings by te voeg sodat die tegnologie eties bly.
Wat dink jy is die toekoms van LLM's?
Lewer Kommentaar