Esboniad o Broses Hyfforddi Gyfan ChatGPT

Tabl Cynnwys[Cuddio][Dangos]

Rhaghyfforddiant cynhyrchiol+-
- Y Mater Cyfluniad
Cywiro dan Oruchwyliaeth+-
- Cyfyngiadau Goruchwylio: Shift Dosbarthu
Yn seiliedig ar Ddewisiadau, Gwobrwyo Dysgu
Beth Mae'r Dyfodol yn Ei Ddal?

Mae ChatGPT yn fodel iaith deallusrwydd artiffisial rhyfeddol. Rydyn ni i gyd yn ei ddefnyddio i'n cynorthwyo gyda gwahanol dasgau.

Ydych chi erioed wedi cwestiynu sut y cafodd ei hyfforddi i gynhyrchu atebion sy'n ymddangos mor debyg i ddynolryw? Yn yr erthygl hon, byddwn yn archwilio hyfforddiant ChatGPT.

Byddwn yn esbonio sut mae wedi datblygu i fod yn un o'r rhai mwyaf rhagorol modelau iaith. Wrth i ni archwilio byd diddorol ChatGPT, dewch ar daith ddarganfod.

Trosolwg o Hyfforddiant

Mae ChatGPT yn fodel prosesu iaith naturiol.

Gyda ChatGPT, gallwn gymryd rhan mewn deialogau rhyngweithiol a thrafodaethau tebyg i bobl. Mae'n defnyddio dull tebyg i un o Cyfarwyddo GPT, sy’n fodel iaith blaengar. Fe'i datblygwyd ychydig cyn ChatGPT.

Mae'n defnyddio dull mwy deniadol. Mae hyn yn galluogi rhyngweithio defnyddwyr naturiol. Felly, mae'n offeryn perffaith ar gyfer amrywiaeth o gymwysiadau fel chatbots a chynorthwywyr rhithwir.

Mae gweithdrefn hyfforddi ChatGPT yn broses aml-gam. Pretraining Generative yw'r cam cyntaf yn hyfforddiant ChatGPT.

Yn y cam hwn, caiff y model ei hyfforddi gan ddefnyddio corpws sylweddol o ddata testun. Yna, mae'r model yn darganfod y cydberthnasau a'r patrymau ystadegol a geir mewn iaith naturiol. Felly, gallwn gael ymateb gramadegol cywir a chydlynol.

Yna rydym yn dilyn cam o fireinio dan oruchwyliaeth. Yn y rhan hon, mae'r model wedi'i hyfforddi ar dasg benodol. Er enghraifft, gall berfformio cyfieithu iaith neu ateb cwestiynau.

Yn olaf, mae ChatGPT yn defnyddio dysgu gwobrwyo o adborth dynol.

Nawr, gadewch i ni archwilio'r camau hyn.

Rhaghyfforddiant cynhyrchiol

Y lefel hyfforddiant cychwynnol yw Rhaghyfforddiant Cynhyrchiol. Mae'n ddull cyffredin o hyfforddi modelau iaith. I greu dilyniannau tocyn, mae'r dull yn cymhwyso'r “paradeim rhagfynegi cam nesaf”.

Beth mae'n ei olygu?

Mae pob tocyn yn newidyn unigryw. Maent yn cynrychioli gair neu ran o air. Mae'r model yn ceisio penderfynu pa air sydd fwyaf tebygol o ddod nesaf o ystyried y geiriau o'i flaen. Mae'n defnyddio'r dosraniad tebygolrwydd ar draws yr holl dermau yn ei ddilyniant.

Pwrpas modelau iaith yw adeiladu dilyniannau tocyn. Dylai'r dilyniannau hyn gynrychioli patrymau a strwythurau iaith ddynol. Mae hyn yn bosibl trwy hyfforddi modelau ar symiau enfawr o ddata testun.

Yna, defnyddir y data hwn i ddeall sut mae geiriau'n cael eu dosbarthu yn yr iaith.

Yn ystod yr hyfforddiant, mae'r model yn newid y paramedrau dosbarthu tebygolrwydd.

Ac, mae'n ceisio lleihau'r gwahaniaeth rhwng dosbarthiad disgwyliedig a gwirioneddol geiriau mewn testun. Mae hyn yn bosibl gyda'r defnydd o swyddogaeth colli. Mae'r swyddogaeth golled yn cyfrifo'r gwahaniaeth rhwng y dosraniadau disgwyliedig a gwirioneddol.

Prosesu iaith naturiol ac gweledigaeth gyfrifiadurol yw un o'r meysydd lle rydym yn defnyddio Pretraining Generative.

Agorai 2

Y Mater Cyfluniad

Mae'r broblem aliniad yn un o'r anawsterau mewn Pretraining Generative. Mae hyn yn cyfeirio at yr anhawster wrth baru dosbarthiad tebygolrwydd y model â dosbarthiad y data gwirioneddol.
Mewn geiriau eraill, dylai'r atebion a gynhyrchir gan y model fod yn debycach i bobl.

Weithiau gall y model ddarparu ymatebion annisgwyl neu amhriodol. A gall hyn gael ei achosi gan amrywiaeth o achosion, megis tuedd data hyfforddi neu ddiffyg ymwybyddiaeth cyd-destun y model. Rhaid mynd i’r afael â’r broblem aliniad er mwyn gwella ansawdd modelau iaith.

Er mwyn goresgyn y broblem hon, mae modelau iaith fel ChatGPT yn defnyddio technegau mireinio.

Cywiro dan Oruchwyliaeth

Mae ail ran hyfforddiant ChatGPT yn fireinio dan oruchwyliaeth. Mae datblygwyr dynol yn cymryd rhan mewn deialogau ar y pwynt hwn, gan weithredu fel y defnyddiwr dynol a'r chatbot.

Mae'r sgyrsiau hyn yn cael eu cofnodi a'u cyfuno mewn set ddata. Mae pob sampl hyfforddi yn cynnwys hanes sgwrsio gwahanol sy'n cyd-fynd ag ateb nesaf y datblygwr dynol sy'n gwasanaethu fel y “chatbot”.

Pwrpas mireinio dan oruchwyliaeth yw gwneud y mwyaf o'r tebygolrwydd a roddir i'r dilyniant o docynnau yn yr ateb cysylltiedig gan y model. Gelwir y dull hwn yn “ddysgu dynwared” neu “clonio ymddygiad.”

Fel hyn gall model ddysgu darparu ymatebion mwy naturiol-sain a chydlynol. Mae'n ailadrodd yr atebion a roddwyd gan gontractwyr dynol.

Cywiro dan oruchwyliaeth yw lle gellir addasu'r model iaith ar gyfer tasg benodol.

Gadewch i ni roi enghraifft. Tybiwch ein bod am ddysgu chatbot i ddarparu argymhellion ffilm. Byddem yn hyfforddi'r model iaith i ragfynegi graddfeydd ffilm yn seiliedig ar ddisgrifiadau ffilm. A byddem yn defnyddio set ddata o ddisgrifiadau ffilm a graddfeydd.

Yn y pen draw, byddai'r algorithm yn darganfod pa agweddau ar ffilm oedd yn cyfateb i raddfeydd uchel neu wael.

Ar ôl iddo gael ei hyfforddi, gallem ddefnyddio ein model i awgrymu ffilmiau i ddefnyddwyr dynol. Gall defnyddwyr ddisgrifio ffilm y maent yn ei mwynhau, a byddai'r chatbot yn defnyddio'r model iaith mireinio i argymell mwy o ffilmiau sy'n debyg iddi.

Cyfyngiadau Goruchwylio: Shift Dosbarthu

Mae mireinio dan oruchwyliaeth yn addysgu model iaith i gyflawni nod penodol. Mae hyn yn bosibl trwy fwydo'r model a set ddata ac yna ei hyfforddi i wneud rhagfynegiadau. Fodd bynnag, mae gan y system hon derfynau a elwir yn “gyfyngiadau goruchwylio.”

Un o’r cyfyngiadau hyn yw “sifft dosbarthiadol”. Mae'n cyfeirio at y posibilrwydd nad yw'r data hyfforddi yn adlewyrchiad cywir o'r dosbarthiad byd go iawn o fewnbynnau y byddai'r model yn dod ar eu traws.

Gadewch i ni adolygu'r enghraifft yn gynharach. Yn yr enghraifft o awgrymiadau ffilm, efallai na fydd y set ddata a ddefnyddir i hyfforddi'r model yn adlewyrchu'n gywir yr amrywiaeth o ffilmiau a dewisiadau defnyddwyr y byddai'r chatbot yn dod ar eu traws. Efallai na fydd y chatbot yn perfformio cystal ag y byddem yn dymuno.

O ganlyniad, mae'n cwrdd â mewnbynnau sy'n annhebyg i'r rhai a welwyd yn ystod yr hyfforddiant.

Ar gyfer dysgu dan oruchwyliaeth, pan fydd y model yn cael ei hyfforddi ar set benodol o achosion yn unig, mae'r broblem hon yn codi.

Yn ogystal, efallai y bydd y model yn perfformio'n well yn wyneb newid dosbarthiadol os defnyddir dysgu atgyfnerthu i'w helpu i addasu i gyd-destunau newydd a dysgu o'i gamgymeriadau.

Yn seiliedig ar Ddewisiadau, Gwobrwyo Dysgu

Dysgu gwobrwyo yw'r trydydd cam hyfforddi wrth ddatblygu chatbot. Mewn dysgu gwobrwyo, dysgir y model i wneud y mwyaf o arwydd gwobr.

Mae'n sgôr sy'n dangos pa mor effeithiol y mae'r model yn cyflawni'r swydd. Mae'r signal gwobrwyo yn seiliedig ar fewnbwn gan bobl sy'n graddio neu'n asesu atebion y model.

Nod dysgu gwobrwyo yw datblygu chatbot sy'n cynhyrchu atebion o ansawdd uchel sy'n well gan ddefnyddwyr dynol. I wneud hyn, gelwir techneg dysgu peiriant dysgu atgyfnerthu - sy'n cynnwys dysgu o adborth ar ffurf gwobrau - yn cael ei ddefnyddio i hyfforddi'r model.

Mae'r chatbot yn ateb ymholiadau defnyddwyr, er enghraifft, yn dibynnu ar ei afael gyfredol ar y dasg, a gyflenwir iddo yn ystod dysgu gwobrau. Yna rhoddir arwydd gwobr yn seiliedig ar ba mor effeithiol y mae'r chatbot yn perfformio unwaith y bydd yr atebion wedi'u hasesu gan farnwyr dynol.

Defnyddir y signal gwobrwyo hwn gan y chatbot i addasu ei osodiadau. Ac, mae'n gwella perfformiad tasg.

Rhai Cyfyngiadau ar Ddysgu Gwobrwyo

Anfantais dysgu gwobrwyo yw ei bod yn bosibl na fydd yr adborth ar atebion y chatbot yn dod am beth amser gan y gallai'r signal gwobrwyo fod yn denau ac wedi'i ohirio. O ganlyniad, gall fod yn heriol hyfforddi'r chatbot yn llwyddiannus oherwydd efallai na fydd yn derbyn adborth ar atebion penodol tan lawer yn ddiweddarach.

Mater arall yw y gall barnwyr dynol fod â safbwyntiau neu ddehongliadau amrywiol o'r hyn sy'n gwneud ymateb llwyddiannus, a allai arwain at ragfarn yn y signal gwobrwyo. I leihau hyn, fe'i defnyddir yn aml gan nifer o feirniaid i gyflwyno signal gwobrwyo mwy dibynadwy.

Beth Mae'r Dyfodol yn Ei Ddal?

Mae sawl cam posibl yn y dyfodol i wella perfformiad ChatGPT ymhellach.

Er mwyn cynyddu dealltwriaeth y model, un llwybr posibl yn y dyfodol yw cynnwys mwy o setiau data hyfforddi a ffynonellau data. Mae gwella gallu'r model i ddeall ac ystyried mewnbynnau nad ydynt yn destun yn bosibl hefyd.

Er enghraifft, gallai modelau iaith ddeall gweledol neu synau.

Trwy ymgorffori technegau hyfforddi penodol gellir gwella ChatGPT hefyd ar gyfer rhai tasgau penodol. Er enghraifft, gall berfformio dadansoddiad teimlad neu gynhyrchu iaith naturiol. I gloi, mae ChatGPT a modelau iaith cysylltiedig yn dangos addewid mawr ar gyfer symud ymlaen.