Allt þjálfunarferlið ChatGPT útskýrt

Efnisyfirlit[Fela][Sýna]

Generative forþjálfun+-
- Jöfnunarmálið
Stýrð fínstilling+-
- Eftirlitstakmarkanir: Dreifingarvakt
Byggt á óskum, verðlaunanám
Hvað ber framtíðin í skauti sér?

ChatGPT er merkilegt gervigreind tungumál líkan. Við notum það öll til að aðstoða okkur við ýmis verkefni.

Hefur þú einhvern tíma efast um hvernig það var þjálfað til að framleiða svör sem virðast svo mannleg? Í þessari grein munum við skoða þjálfun ChatGPT.

Við munum útskýra hvernig það hefur þróast í einn af þeim framúrskarandi tungumálalíkön. Þegar við skoðum forvitnilegan heim ChatGPT, komdu með í uppgötvunarferð.

Yfirlit yfir þjálfun

ChatGPT er náttúrulegt málvinnslulíkan.

Með ChatGPT getum við tekið þátt í gagnvirkum samræðum og mannlegum umræðum. Það notar svipaða nálgun og Leiðbeina GPT, sem er háþróað tungumálalíkan. Það var þróað skömmu fyrir ChatGPT.

Það notar meira grípandi aðferð. Þetta gerir náttúruleg notendasamskipti. Svo, það er fullkomið tæki fyrir margs konar forrit eins og spjallbota og sýndaraðstoðarmenn.

Þjálfunaraðferð ChatGPT er fjölþrepa ferli. Generative Pretraining er fyrsta skrefið í þjálfun ChatGPT.

Í þessum áfanga er líkanið þjálfað með því að nota umtalsverðan hluta textagagna. Síðan uppgötvar líkanið tölfræðileg fylgni og mynstur sem finnast í náttúrulegu tungumáli. Þannig að við getum haft málfræðilega nákvæm og samfelld svörun.

Síðan fylgjum við skrefi um fínstillingu undir eftirliti. Í þessum hluta er líkanið þjálfað í tilteknu verkefni. Til dæmis getur það framkvæmt tungumálaþýðingu eða spurningasvörun.

Að lokum notar ChatGPT umbunarnám af endurgjöf manna.

Nú skulum við skoða þessi skref.

Generative forþjálfun

Upphafsstig þjálfunar er Generative Pretraining. Það er algeng aðferð til að þjálfa tungumálalíkön. Til að búa til táknraðir notar aðferðin „næsta skref spáfyrirmynd“.

Hvað þýðir það?

Hver tákn er einstök breyta. Þeir tákna orð eða hluta orðs. Líkanið reynir að ákvarða hvaða orð er líklegast til að koma næst miðað við orðin á undan því. Það notar líkindadreifingu yfir öll hugtökin í röð sinni.

Tilgangur mállíkana er að búa til táknraðir. Þessar raðir ættu að tákna mynstur og uppbyggingu mannlegs tungumáls. Þetta er mögulegt með því að þjálfa líkan á gríðarlegu magni af textagögnum.

Síðan eru þessi gögn notuð til að skilja hvernig orð dreifast á tungumálinu.

Meðan á þjálfun stendur breytir líkanið breytum líkindadreifingar.

Og það reynir að minnka muninn á væntanlegri og raunverulegri dreifingu orða í texta. Þetta er mögulegt með því að nota tapaðgerð. Tapfallið reiknar mismuninn á væntanlegri og raunverulegri dreifingu.

Náttúruleg málvinnsla og tölva sýn eru eitt af þeim sviðum sem við notum Generative Pretraining.

Openai 2

Jöfnunarmálið

Aðlögunarvandamálið er einn af erfiðleikunum í Generative Pretraining. Hér er átt við erfiðleika við að passa líkindadreifingu líkansins við dreifingu raunverulegra gagna.
Með öðrum orðum ættu svör líkansins að vera mannlegri.

Líkanið getur stundum gefið óvænt eða óviðeigandi svör. Og þetta getur stafað af ýmsum orsökum, svo sem hlutdrægni í þjálfunargögnum eða skorti á samhengisvitund líkansins. Taka verður á samræmingarvandanum til að bæta gæði tungumálalíkana.

Til að vinna bug á þessu vandamáli nota tungumálalíkön eins og ChatGPT fínstillingartækni.

Stýrð fínstilling

Seinni hluti ChatGPT þjálfunar er fínstilling undir eftirliti. Mannlegir verktaki taka þátt í samræðum á þessum tímapunkti og starfa sem bæði mannlegur notandi og spjallbotninn.

Þessar viðræður eru skráðar og settar saman í gagnapakka. Hvert þjálfunarsýni inniheldur sérstakan samtalsferil sem passar við næsta svar mannlegs þróunaraðila sem þjónar sem „spjallbotni“.

Tilgangurinn með fínstillingu undir eftirliti er að hámarka líkurnar sem úthlutað er til röð tákna í tilheyrandi svari af líkaninu. Þessi aðferð er þekkt sem „eftirlíking nám“ eða „atferlisklónun“.

Þannig getur líkanið lært að veita náttúrulegri hljómandi og heildstæðari svör. Það er að endurtaka svör sem mannlegir verktakar hafa gefið.

Stýrð fínstilling er þar sem hægt er að aðlaga tungumálalíkanið fyrir tiltekið verkefni.

Við skulum nefna dæmi. Segjum sem svo að við viljum kenna spjallbotni að koma með ráðleggingar um kvikmyndir. Við myndum þjálfa tungumálalíkanið til að spá fyrir um einkunnir kvikmynda út frá kvikmyndalýsingum. Og við myndum nota gagnasafn með kvikmyndalýsingum og einkunnum.

Reikniritið myndi að lokum finna út hvaða þættir kvikmyndar samsvaruðu háu eða lélegu einkunnum.

Eftir að það hefur verið þjálfað gætum við notað líkanið okkar til að stinga upp á kvikmyndum fyrir mannlega notendur. Notendur geta lýst kvikmynd sem þeir hafa gaman af og spjallbotninn myndi nota fágaða tungumálamódelið til að mæla með fleiri kvikmyndum sem eru sambærilegar við það.

Eftirlitstakmarkanir: Dreifingarvakt

Fínstilling undir eftirliti er að kenna tungumálalíkan til að framkvæma tiltekið markmið. Þetta er mögulegt með því að fóðra líkanið a gagnapakkinn og þjálfa það svo í að spá. Þetta kerfi hefur hins vegar takmörk sem kallast „eftirlitstakmarkanir“.

Ein af þessum takmörkunum er „dreifingarbreyting“. Það vísar til þess möguleika að þjálfunargögnin endurspegli hugsanlega ekki nákvæmlega raunverulega dreifingu inntaks sem líkanið myndi lenda í.

Við skulum rifja upp dæmið frá því áðan. Í kvikmyndatillögudæminu gæti gagnasafnið sem notað er til að þjálfa líkanið ekki endurspegla nákvæmlega fjölda kvikmynda og óskir notenda sem spjallbotninn myndi lenda í. Spjallbotninn gæti ekki staðið sig eins vel og við viljum.

Þar af leiðandi mætir það inntak sem er ólíkt því sem það sá við þjálfun.

Fyrir nám undir eftirliti, þegar líkanið er aðeins þjálfað á tilteknum tilvikum, kemur þetta vandamál upp.

Að auki getur líkanið staðið sig betur í ljósi dreifingarbreytingar ef styrkingarnám er notað til að hjálpa því að laga sig að nýju samhengi og læra af mistökum sínum.

Byggt á óskum, verðlaunanám

Verðlaunanám er þriðja þjálfunarstigið í þróun spjallbotna. Í verðlaunanámi er líkaninu kennt að hámarka verðlaunamerki.

Það er stig sem gefur til kynna hversu árangursríkt líkanið skilar verkinu. Verðlaunamerkið er byggt á inntaki frá fólki sem metur eða metur svör líkansins.

Verðlaunanám miðar að því að þróa spjallbot sem framleiðir hágæða svör sem mannlegir notendur kjósa. Til að gera þetta, vélanámstækni sem kallast styrkingarnám - sem felur í sér að læra af endurgjöf í formi verðlauna—er notað til að þjálfa líkanið.

Spjallbotninn svarar notendafyrirspurnum, til dæmis, allt eftir því hvernig það hefur náð tökum á verkefninu, sem honum er úthlutað við verðlaunanám. Verðlaunamerki er síðan gefið út frá því hversu áhrifaríkan spjallbotninn skilar árangri þegar svörin hafa verið metin af mannlegum dómurum.

Þetta verðlaunamerki er notað af chatbot til að breyta stillingum þess. Og það eykur frammistöðu verkefna.

Nokkrar takmarkanir á verðlaunanámi

Galli við verðlaunanám er að endurgjöf á svörum spjallbotnsins gæti ekki komið í nokkurn tíma þar sem verðlaunamerkið gæti verið dreifð og seinkað. Þar af leiðandi getur verið krefjandi að þjálfa spjallbotninn með góðum árangri vegna þess að það getur ekki fengið endurgjöf um ákveðin svör fyrr en löngu síðar.

Annað mál er að dómarar manna geta haft mismunandi skoðanir eða túlkanir á því hvað veldur farsælu svari, sem gæti leitt til hlutdrægni í verðlaunamerkinu. Til að draga úr þessu er það oft notað af nokkrum dómurum til að gefa áreiðanlegra verðlaunamerki.

Hvað ber framtíðin í skauti sér?

Það eru nokkur möguleg framtíðarskref til að auka enn frekar afköst ChatGPT.

Til að auka skilning líkansins er ein hugsanleg framtíðarleið að taka með fleiri þjálfunargagnasöfn og gagnaveitur. Það er líka mögulegt að auka getu líkansins til að skilja og taka tillit til inntaks sem ekki er texti.

Mállíkön gætu til dæmis skilið myndefni eða hljóð.

Með því að innleiða sérstaka þjálfunartækni er einnig hægt að bæta ChatGPT fyrir ákveðin verkefni. Til dæmis getur það framkvæmt viðhorfsgreining eða náttúruleg málframleiðsla. Að lokum sýna ChatGPT og tengd tungumálalíkön mikil fyrirheit um framfarir.