O problemă clasică în inteligența artificială este urmărirea unei mașini care poate înțelege limbajul uman.
De exemplu, atunci când căutați „restaurante italiene din apropiere” în motorul dvs. de căutare preferat, un algoritm trebuie să analizeze fiecare cuvânt din interogarea dvs. și să scoată rezultatele relevante. O aplicație de traducere decentă va trebui să înțeleagă contextul unui anumit cuvânt în engleză și să țină seama cumva de diferențele de gramatică dintre limbi.
Toate aceste sarcini și multe altele se încadrează în subdomeniul informaticii cunoscut sub numele de Procesarea limbajului natural sau NLP. Progresele în NLP au condus la o gamă largă de aplicații practice, de la asistenți virtuali precum Alexa de la Amazon până la filtrele de spam care detectează e-mailurile rău intenționate.
Cea mai recentă descoperire în NLP este ideea de a model de limbaj mare sau LLM. LLM-urile precum GPT-3 au devenit atât de puternice încât par să reușească aproape în orice sarcină NLP sau caz de utilizare.
În acest articol, vom analiza ce sunt exact LLM-urile, cum sunt antrenate aceste modele și limitările actuale pe care le au.
Ce este un model de limbă mare?
În esență, un model de limbaj este pur și simplu un algoritm care știe cât de probabilă este o propoziție validă o secvență de cuvinte.
Un model de limbaj foarte simplu, instruit pe câteva sute de cărți, ar trebui să poată spune că „El a plecat acasă” este mai valid decât „El a plecat acasă”.
Dacă înlocuim setul de date relativ mic cu un set masiv de date răzuit de pe internet, începem să abordăm ideea unui model de limbaj mare.
Utilizarea rețele neuronale, cercetătorii pot instrui LLM-uri pe o cantitate mare de date text. Datorită cantității de date text pe care modelul le-a văzut, LLM devine foarte bun la prezicerea cuvântului următor dintr-o secvență.
Modelul devine atât de sofisticat, încât poate îndeplini o mulțime de sarcini NLP. Aceste sarcini includ rezumarea textului, crearea de conținut nou și chiar simularea unei conversații umane.
De exemplu, modelul de limbaj foarte popular GPT-3 este antrenat cu peste 175 de miliarde de parametri și este considerat cel mai avansat model de limbaj de până acum.
Este capabil să genereze cod de lucru, să scrie articole întregi și poate încerca să răspundă la întrebări despre orice subiect.
Cum sunt instruiți LLM-urile?
Am atins pe scurt faptul că LLM-urile își datorează o mare parte din puterea dimensiunii datelor lor de formare. Există un motiv pentru care le numim modele de limbaj „mari” până la urmă.
Pre-instruire cu o arhitectură transformator
În timpul etapei de pre-formare, LLM-urile sunt introduse în datele text existente pentru a învăța structura generală și regulile unei limbi.
În ultimii câțiva ani, LLM-urile au fost pre-instruite pe seturi de date care acoperă o parte semnificativă a internetului public. De exemplu, modelul de limbă GPT-3 a fost antrenat pe date din Crawl comun set de date, un corpus de postări web, pagini web și cărți digitalizate extrase din peste 50 de milioane de domenii.
Setul de date masiv este apoi introdus într-un model cunoscut sub numele de a transformator. Transformatoarele sunt un tip de rețea neuronală profundă care funcționează cel mai bine pentru date secvențiale.
Transformatoarele folosesc un arhitectura codificator-decodor pentru manipularea intrărilor și ieșirii. În esență, transformatorul conține două rețele neuronale: un codificator și un decodor. Codificatorul poate extrage semnificația textului de intrare și îl poate stoca ca vector. Decodorul primește apoi vectorul și produce interpretarea acestuia a textului.
Cu toate acestea, conceptul cheie care a permis arhitecturii transformatorului să funcționeze atât de bine este adăugarea unui mecanism de autoatenție. Conceptul de autoatenție a permis modelului să acorde atenție celor mai importante cuvinte dintr-o propoziție dată. Mecanismul ia în considerare chiar și greutățile dintre cuvintele care sunt departe unul de celălalt secvenţial.
Un alt beneficiu al autoatenției este că procesul poate fi paralelizat. În loc să proceseze datele secvențiale în ordine, modelele de transformatoare pot procesa toate intrările simultan. Acest lucru le permite transformatoarelor să se antreneze pe cantități uriașe de date relativ rapid în comparație cu alte metode.
Reglaj fin
După etapa de pre-formare, puteți alege să introduceți un text nou pentru LLM de bază pentru a vă instrui. Numim acest proces reglaj fin și este adesea folosit pentru a îmbunătăți în continuare rezultatele LLM pentru o anumită sarcină.
De exemplu, poate doriți să utilizați un LLM pentru a genera conținut pentru contul dvs. de Twitter. Putem oferi modelului mai multe exemple de tweet-uri anterioare pentru a-i oferi o idee despre rezultatul dorit.
Există câteva tipuri diferite de reglaj fin.
Învățare cu puține lovituri se referă la procesul de a oferi unui model un număr mic de exemple cu așteptarea ca modelul lingvistic să descopere cum să realizeze rezultate similare. Învățare unică este un proces similar, cu excepția faptului că este furnizat un singur exemplu.
Limitările modelelor de limbaj mari
LLM-urile precum GPT-3 sunt capabile să realizeze un număr mare de cazuri de utilizare chiar și fără reglaj fin. Cu toate acestea, aceste modele încă vin cu propriul set de limitări.
Lipsa unei înțelegeri semantice a lumii
La suprafață, LLM-urile par să arate inteligență. Cu toate acestea, aceste modele nu funcționează în același mod creier uman face. LLM-urile se bazează exclusiv pe calcule statistice pentru a genera rezultate. Ei nu au capacitatea de a raționa singuri idei și concepte.
Din această cauză, un LLM poate scoate răspunsuri fără sens pur și simplu pentru că cuvintele par „corecte” sau „probabile din punct de vedere statistic” atunci când sunt plasate în ordinea respectivă.
Halucinații
Modele precum GPT-3 suferă, de asemenea, de răspunsuri inexacte. LLM-urile pot suferi de un fenomen cunoscut sub numele de halucinaţie unde modelele produc un răspuns incorect din punct de vedere faptic, fără a fi conștient că răspunsul nu are nicio bază în realitate.
De exemplu, un utilizator poate cere modelului să explice gândurile lui Steve Jobs despre cel mai recent iPhone. Modelul poate genera o cotă din aer subțire pe baza datelor sale de antrenament.
Prejudecăți și cunoștințe limitate
La fel ca mulți alți algoritmi, modelele de limbaj mari sunt predispuse să moștenească părtinirile prezente în datele de antrenament. Pe măsură ce începem să ne bazăm mai mult pe LLM-uri pentru a prelua informații, dezvoltatorii acestor modele ar trebui să găsească modalități de a atenua efectele potențial dăunătoare ale răspunsurilor părtinitoare.
Într-o capacitate similară, punctele oarbe ale datelor de antrenament ale modelului vor împiedica și modelul în sine. În prezent, modelele mari de limbă durează luni pentru a se antrena. Aceste modele se bazează, de asemenea, pe seturi de date cu sferă limitată. Acesta este motivul pentru care ChatGPT are cunoștințe limitate despre evenimentele care au avut loc după 2021.
Concluzie
Modelele lingvistice mari au potențialul de a schimba cu adevărat modul în care interacționăm cu tehnologia și lumea noastră în general.
Cantitatea mare de date disponibile pe internet a oferit cercetătorilor o modalitate de a modela complexitățile limbajului. Cu toate acestea, pe parcurs, aceste modele de limbaj par să fi preluat o înțelegere umană a lumii așa cum este.
Pe măsură ce publicul începe să aibă încredere în aceste modele lingvistice pentru a oferi rezultate precise, cercetătorii și dezvoltatorii găsesc deja modalități de a adăuga balustrade, astfel încât tehnologia să rămână etică.
Care credeți că este viitorul LLM-urilor?
Lasă un comentariu