Întregul proces de instruire al ChatGPT explicat

Cuprins[Ascunde][Spectacol]

Preantrenamentul generativ+-
- Problema alinierii
Reglare fină supravegheată+-
- Limitări de supraveghere: Schimb de distribuție
Pe baza preferințelor, recompensă învățarea
Ce rezerva viitorul?

ChatGPT este un model remarcabil de limbaj de inteligență artificială. Cu toții îl folosim pentru a ne ajuta în diverse sarcini.

Te-ai întrebat vreodată cum a fost antrenat pentru a produce răspunsuri care par atât de umane? În acest articol, vom examina formarea ChatGPT.

Vă vom explica cum a evoluat într-una dintre cele mai remarcabile modele de limbaj. Pe măsură ce explorăm lumea intrigantă a ChatGPT, veniți într-o călătorie de descoperire.

Prezentare generală a instruirii

ChatGPT este un model de procesare a limbajului natural.

Cu ChatGPT, ne putem angaja în dialoguri interactive și discuții umane. Utilizează o abordare similară cu cea a Instruiți GPT, care este un model de limbaj de ultimă oră. A fost dezvoltat cu puțin timp înainte de ChatGPT.

Folosește o metodă mai captivantă. Acest lucru permite interacțiunile naturale ale utilizatorului. Deci, este un instrument perfect pentru o varietate de aplicații, cum ar fi chatbot și asistenți virtuali.

Procedura de instruire ChatGPT este un proces în mai multe etape. Preinstruirea generativă este primul pas în pregătirea ChatGPT.

În această fază, modelul este antrenat utilizând un corpus considerabil de date text. Apoi, modelul descoperă corelațiile și modelele statistice găsite în limbajul natural. Deci, putem avea un răspuns corect și coerent din punct de vedere gramatical.

Apoi urmăm un pas de reglare fină supravegheată. În această parte, modelul este antrenat pentru o anumită sarcină. De exemplu, poate efectua traduceri lingvistice sau răspunsuri la întrebări.

În cele din urmă, ChatGPT folosește învățarea recompensă din feedbackul uman.

Acum, să examinăm acești pași.

Preantrenamentul generativ

Nivelul inițial de pregătire este Generative Pretraining. Este o metodă comună de formare a modelelor lingvistice. Pentru a crea secvențe de token, metoda aplică „paradigma de predicție a pasului următor”.

Ce înseamnă?

Fiecare jeton este o variabilă unică. Ele reprezintă un cuvânt sau o parte a unui cuvânt. Modelul încearcă să determine care cuvânt este cel mai probabil să apară următorul, având în vedere cuvintele dinainte. Utilizează distribuția probabilității pe toți termenii din secvența sa.

Scopul modelelor de limbaj este de a construi secvențe de token. Aceste secvențe ar trebui să reprezinte tiparele și structurile limbajului uman. Acest lucru este posibil prin antrenarea modelelor pe cantități uriașe de date text.

Apoi, aceste date sunt folosite pentru a înțelege cum sunt distribuite cuvintele în limbă.

În timpul antrenamentului, modelul modifică parametrii de distribuție a probabilității.

Și încearcă să reducă diferența dintre distribuția așteptată și cea reală a cuvintelor dintr-un text. Acest lucru este posibil prin utilizarea unei funcții de pierdere. Funcția de pierdere calculează diferența dintre distribuțiile așteptate și cele reale.

Procesarea limbajului natural și viziunea computerului sunt unul dintre domeniile în care folosim Generative Pretraining.

Openai 2

Problema alinierii

Problema de aliniere este una dintre dificultățile din Preformarea generativă. Aceasta se referă la dificultatea de a potrivi distribuția de probabilitate a modelului cu distribuția datelor reale.
Cu alte cuvinte, răspunsurile generate de model ar trebui să fie mai asemănătoare oamenilor.

Modelul poate oferi ocazional răspunsuri neașteptate sau necorespunzătoare. Și, acest lucru poate fi cauzat de o varietate de cauze, cum ar fi părtinirea datelor de antrenament sau lipsa de cunoaștere a contextului a modelului. Problema de aliniere trebuie abordată pentru a îmbunătăți calitatea modelelor lingvistice.

Pentru a depăși această problemă, modelele de limbă precum ChatGPT utilizează tehnici de reglare fină.

Reglare fină supravegheată

A doua parte a instruirii ChatGPT este reglarea fină supravegheată. Dezvoltatorii umani se angajează în dialoguri în acest moment, acționând atât ca utilizator uman, cât și ca chatbot.

Aceste discuții sunt înregistrate și agregate într-un set de date. Fiecare eșantion de antrenament include un istoric de conversație distinct, asociat cu următorul răspuns al dezvoltatorului uman care servește drept „chatbot”.

Scopul reglajului fin supravegheat este de a maximiza probabilitatea atribuită secvenței de jetoane din răspunsul asociat de către model. Această metodă este cunoscută sub denumirea de „învățare prin imitație” sau „clonare a comportamentului”.

În acest fel, modelul poate învăța să ofere răspunsuri mai naturale și mai coerente. Replică răspunsurile date de contractori umani.

Reglarea fină supravegheată este locul în care modelul de limbă poate fi ajustat pentru o anumită sarcină.

Să dăm un exemplu. Să presupunem că vrem să învățăm un chatbot să ofere recomandări de filme. Am antrena modelul de limbă pentru a prezice evaluările filmelor pe baza descrierilor filmelor. Și, am folosi un set de date de descrieri și evaluări ale filmelor.

Algoritmul avea să descopere în cele din urmă ce aspecte ale unui film corespundeau unor evaluări ridicate sau slabe.

După ce este instruit, am putea folosi modelul nostru pentru a sugera filme utilizatorilor umani. Utilizatorii pot descrie un film care îi place, iar chatbot-ul ar folosi modelul de limbaj rafinat pentru a recomanda mai multe filme care sunt comparabile cu acesta.

Limitări de supraveghere: Schimb de distribuție

Reglarea fină supravegheată înseamnă predarea unui model lingvistic pentru a îndeplini un obiectiv specificat. Acest lucru este posibil prin alimentarea modelului a date CCD și apoi antrenându-l să facă predicții. Cu toate acestea, acest sistem are limite cunoscute sub numele de „restricții de supraveghere”.

Una dintre aceste restricții este „schimbarea distribuțională”. Se referă la posibilitatea ca datele de antrenament să nu reflecte cu exactitate distribuția reală a intrărilor pe care modelul le-ar întâlni.

Să revedem exemplul de mai devreme. În exemplul de sugestie de film, setul de date folosit pentru a antrena modelul poate să nu reflecte cu acuratețe varietatea de filme și preferințele utilizatorilor pe care le-ar întâlni chatbot-ul. Chatbot-ul ar putea să nu funcționeze atât de bine pe cât ne-am dori.

Ca rezultat, îndeplinește inputuri care sunt diferite de cele observate în timpul antrenamentului.

Pentru învățarea supravegheată, atunci când modelul este antrenat doar pe un anumit set de instanțe, apare această problemă.

În plus, modelul poate funcționa mai bine în fața unei schimbări distribuționale dacă învățarea prin consolidare este folosită pentru a-l ajuta să se adapteze la noi contexte și să învețe din greșelile sale.

Pe baza preferințelor, recompensă învățarea

Învățarea recompenselor este a treia etapă de formare în dezvoltarea unui chatbot. În învățarea recompensă, modelul este predat să maximizeze un semnal de recompensă.

Este un scor care indică cât de eficient modelul îndeplinește sarcina. Semnalul de recompensă se bazează pe inputul persoanelor care evaluează sau evaluează răspunsurile modelului.

Învățarea recompenselor își propune să dezvolte un chatbot care produce răspunsuri de înaltă calitate pe care utilizatorii umani le preferă. Pentru a face acest lucru, o tehnică de învățare automată numită învățare prin întărire — care include învățarea din feedback sub formă de recompense — este folosit pentru a antrena modelul.

Chatbot-ul răspunde la întrebările utilizatorilor, de exemplu, în funcție de înțelegerea actuală a sarcinii, care îi este furnizată în timpul învățării cu recompense. Un semnal de recompensă este apoi dat în funcție de cât de eficient funcționează chatbot-ul odată ce răspunsurile au fost evaluate de judecătorii umani.

Acest semnal de recompensă este folosit de chatbot pentru a-și modifica setările. Și îmbunătățește performanța sarcinii.

Câteva limitări ale învățării prin recompense

Un dezavantaj al învățării recompenselor este că feedback-ul cu privire la răspunsurile chatbot-ului poate să nu vină de ceva timp, deoarece semnalul de recompensă ar putea fi rar și întârziat. Ca rezultat, poate fi dificil să antrenezi cu succes chatbot-ul, deoarece este posibil să nu primească feedback cu privire la răspunsuri specifice decât mult mai târziu.

O altă problemă este că judecătorii umani pot avea opinii sau interpretări variate cu privire la ceea ce face un răspuns de succes, ceea ce ar putea duce la părtinire în semnalul de recompensă. Pentru a reduce acest lucru, este folosit frecvent de mai mulți judecători pentru a oferi un semnal de recompensă mai sigur.

Ce rezerva viitorul?

Există mai mulți pași potențiali viitori pentru a îmbunătăți și mai mult performanța ChatGPT.

Pentru a crește înțelegerea modelului, o potențială cale viitoare este includerea mai multor seturi de date de antrenament și surse de date. De asemenea, este posibilă îmbunătățirea capacității modelului de a înțelege și de a lua în considerare intrările non-textuale.

De exemplu, modelele de limbaj ar putea înțelege elementele vizuale sau sunetele.

Prin încorporarea unor tehnici de antrenament specifice, ChatGPT poate fi îmbunătățit și pentru anumite sarcini. De exemplu, poate funcționa Analiza sentimentului sau producerea limbajului natural. În concluzie, ChatGPT și modelele lingvistice conexe arată foarte promițătoare pentru avansare.

Întregul proces de instruire al ChatGPT explicat

Prezentare generală a instruirii

Preantrenamentul generativ

Problema alinierii

Reglare fină supravegheată

Limitări de supraveghere: Schimb de distribuție

Pe baza preferințelor, recompensă învățarea

Câteva limitări ale învățării prin recompense

Ce rezerva viitorul?

Despre Noi İlke Candan Bengi

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

Colosyan vs Heygen

Acest buletin informativ Future Tech nu e de nasol

Întregul proces de instruire al ChatGPT explicat

Prezentare generală a instruirii

Preantrenamentul generativ

Problema alinierii

Reglare fină supravegheată

Limitări de supraveghere: Schimb de distribuție

Pe baza preferințelor, recompensă învățarea

Câteva limitări ale învățării prin recompense

Ce rezerva viitorul?

Despre Noi İlke Candan Bengi

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

10 cele mai bune instrumente AI pentru rețelele sociale

Colosyan vs Heygen

Cele mai bune 10 instrumente pentru realizarea de videoclipuri animate AI

Interacțiuni de reader

Lasă un comentariu Anuleaza raspunsul

Acest buletin informativ Future Tech nu e de nasol