Problem glasurol mewn deallusrwydd artiffisial yw mynd ar drywydd peiriant sy'n gallu deall iaith ddynol.
Er enghraifft, wrth chwilio am “bwytai Eidalaidd cyfagos” ar eich hoff beiriant chwilio, mae'n rhaid i algorithm ddadansoddi pob gair yn eich ymholiad ac allbynnu'r canlyniadau perthnasol. Bydd yn rhaid i ap cyfieithu teilwng ddeall cyd-destun gair penodol yn Saesneg a rhoi cyfrif rhywsut am y gwahaniaethau mewn gramadeg rhwng ieithoedd.
Mae'r holl dasgau hyn a llawer mwy yn dod o dan is-faes cyfrifiadureg a elwir Prosesu Iaith Naturiol neu NLP. Mae datblygiadau yn NLP wedi arwain at amrywiaeth eang o gymwysiadau ymarferol gan gynorthwywyr rhithwir fel Alexa Amazon i hidlwyr sbam sy'n canfod e-bost maleisus.
Y datblygiad diweddaraf yn NLP yw'r syniad o a model iaith mawr neu LLM. Mae LLMs fel GPT-3 wedi dod mor bwerus fel ei bod yn ymddangos eu bod yn llwyddo mewn unrhyw dasg neu achos defnydd NLP bron.
Yn yr erthygl hon, byddwn yn edrych i mewn i beth yn union yw LLMs, sut mae'r modelau hyn yn cael eu hyfforddi, a'r cyfyngiadau sydd ganddynt ar hyn o bryd.
Beth yw model iaith mawr?
Yn greiddiol iddo, yn syml, algorithm yw model iaith sy’n gwybod pa mor debygol yw dilyniant o eiriau fel brawddeg ddilys.
Dylai model iaith syml iawn sydd wedi’i hyfforddi ar ychydig gannoedd o lyfrau allu dweud bod “He went home” yn fwy dilys nag “Adref aeth e”.
Os byddwn yn disodli'r set ddata gymharol fach gyda set ddata enfawr wedi'i chrafu o'r rhyngrwyd, byddwn yn dechrau mynd at y syniad o a model iaith mawr.
Defnyddio rhwydweithiau nefol, gall ymchwilwyr hyfforddi LLMs ar lawer iawn o ddata testun. Oherwydd faint o ddata testun y mae'r model wedi'i weld, mae'r LLM yn dod yn dda iawn am ragfynegi'r gair nesaf mewn dilyniant.
Mae'r model yn dod mor soffistigedig, gall gyflawni llawer o dasgau NLP. Mae'r tasgau hyn yn cynnwys crynhoi testun, creu cynnwys newydd, a hyd yn oed efelychu sgwrs ddynol.
Er enghraifft, mae'r model iaith GPT-3 hynod boblogaidd wedi'i hyfforddi gyda dros 175 biliwn o baramedrau ac fe'i hystyrir fel y model iaith mwyaf datblygedig hyd yn hyn.
Mae'n gallu cynhyrchu cod gweithio, ysgrifennu erthyglau cyfan, a gall gymryd cip ar ateb cwestiynau am unrhyw bwnc.
Sut Mae LLMs yn cael eu Hyfforddi?
Rydym wedi cyfeirio'n fyr at y ffaith bod gan LLMs lawer o'u pŵer i faint eu data hyfforddi. Mae yna reswm pam rydyn ni’n eu galw nhw’n fodelau iaith “mawr” wedi’r cyfan.
Hyfforddiant ymlaen llaw gyda Phensaernïaeth Trawsnewidydd
Yn ystod y cam cyn-hyfforddiant, cyflwynir LLMs i ddata testun presennol i ddysgu strwythur a rheolau cyffredinol iaith.
Yn yr ychydig flynyddoedd diwethaf, mae LLMs wedi cael eu hyfforddi ymlaen llaw ar setiau data sy'n cwmpasu cyfran sylweddol o'r rhyngrwyd cyhoeddus. Er enghraifft, hyfforddwyd model iaith GPT-3 ar ddata o'r Cropian Cyffredin set ddata, corpws o bostiadau gwe, tudalennau gwe, a llyfrau digidol wedi'u crafu o dros 50 miliwn o barthau.
Yna caiff y set ddata enfawr ei bwydo i fodel a elwir yn a newidydd. Mae trawsnewidyddion yn fath o rhwydwaith niwral dwfn sy'n gweithio orau ar gyfer data dilyniannol.
Mae trawsnewidyddion yn defnyddio a pensaernïaeth amgodiwr-datgodiwr ar gyfer trin mewnbwn ac allbwn. Yn y bôn, mae'r trawsnewidydd yn cynnwys dau rwydwaith niwral: amgodiwr a datgodiwr. Gall yr amgodiwr dynnu ystyr y testun mewnbwn a'i storio fel fector. Yna mae'r datgodiwr yn derbyn y fector ac yn cynhyrchu ei ddehongliad o'r testun.
Fodd bynnag, y cysyniad allweddol a ganiataodd i bensaernïaeth y trawsnewidydd weithio mor dda yw ychwanegu a mecanwaith hunan-sylw. Roedd y cysyniad o hunan-sylw yn caniatáu i'r model roi sylw i'r geiriau pwysicaf mewn brawddeg benodol. Mae'r mecanwaith hyd yn oed yn ystyried y pwysau rhwng geiriau sy'n bell oddi wrth ei gilydd yn ddilyniannol.
Mantais arall o hunan-sylw yw y gellir cyfochrog â'r broses. Yn hytrach na phrosesu data dilyniannol mewn trefn, gall modelau trawsnewidyddion brosesu'r holl fewnbynnau ar unwaith. Mae hyn yn galluogi trawsnewidyddion i hyfforddi ar symiau enfawr o ddata yn gymharol gyflym o gymharu â dulliau eraill.
Tiwnio coeth
Ar ôl y cam cyn-hyfforddiant, gallwch ddewis cyflwyno testun newydd i'r LLM sylfaen hyfforddi arno. Rydym yn galw'r broses hon tiwnio coeth ac fe'i defnyddir yn aml i wella allbwn yr LLM ymhellach ar dasg benodol.
Er enghraifft, efallai y byddwch am ddefnyddio LLM i gynhyrchu cynnwys ar gyfer eich cyfrif Twitter. Gallwn roi sawl enghraifft i'r model o'ch trydariadau blaenorol i roi syniad iddo o'r allbwn dymunol.
Mae yna ychydig o wahanol fathau o fireinio.
Ychydig o ddysgu ergyd cyfeirio at y broses o roi nifer fach o enghreifftiau i fodel gyda’r disgwyliad y bydd y model iaith yn cyfrifo sut i wneud allbwn tebyg. Dysgu un ergyd yn broses debyg ac eithrio un enghraifft yn unig a ddarperir.
Cyfyngiadau Modelau Iaith Mawr
Mae LLMs fel GPT-3 yn gallu perfformio nifer fawr o achosion defnydd hyd yn oed heb eu mireinio. Fodd bynnag, mae'r modelau hyn yn dal i ddod â'u set eu hunain o gyfyngiadau.
Diffyg Dealltwriaeth Semantig o'r Byd
Ar yr wyneb, mae'n ymddangos bod LLMs yn dangos gwybodaeth. Fodd bynnag, nid yw'r modelau hyn yn gweithredu yn yr un ffordd ymennydd dynol yn gwneud. Mae LLMs yn dibynnu ar gyfrifiannau ystadegol yn unig i gynhyrchu allbwn. Nid oes ganddynt y gallu i resymu syniadau a chysyniadau ar eu pen eu hunain.
Oherwydd hyn, gall LLM allbynnu atebion di-synnwyr yn syml oherwydd bod y geiriau’n ymddangos yn “gywir” neu’n “debygol yn ystadegol” o’u gosod yn y drefn benodol honno.
Rhyngweithiau
Mae modelau fel GPT-3 hefyd yn dioddef o ymatebion anghywir. Gall LLMs ddioddef o ffenomen o'r enw rhithwelediad lle mae modelau yn cynhyrchu ymateb ffeithiol anghywir heb unrhyw ymwybyddiaeth nad oes gan yr ymateb unrhyw sail mewn gwirionedd.
Er enghraifft, efallai y bydd defnyddiwr yn gofyn i'r model esbonio barn Steve Jobs ar yr iPhone diweddaraf. Gall y model gynhyrchu dyfynbris o aer tenau yn seiliedig ar ei ddata hyfforddi.
Tuedd a Gwybodaeth Gyfyngedig
Fel llawer o algorithmau eraill, mae modelau iaith mawr yn dueddol o etifeddu'r rhagfarnau sy'n bresennol yn y data hyfforddi. Wrth i ni ddechrau dibynnu mwy ar LLMs i adalw gwybodaeth, dylai datblygwyr y modelau hyn ddod o hyd i ffyrdd o liniaru effeithiau niweidiol posibl ymatebion rhagfarnllyd.
Mewn swyddogaeth debyg, bydd mannau dall data hyfforddi'r model hefyd yn rhwystro'r model ei hun. Ar hyn o bryd, mae modelau iaith mawr yn cymryd misoedd i'w hyfforddi. Mae'r modelau hyn hefyd yn dibynnu ar setiau data sy'n gyfyngedig eu cwmpas. Dyma pam mai dim ond gwybodaeth gyfyngedig sydd gan ChatGPT am ddigwyddiadau a ddigwyddodd yn ystod 2021.
Casgliad
Mae gan fodelau iaith mawr y potensial i newid y ffordd yr ydym yn rhyngweithio â thechnoleg a'n byd yn gyffredinol yn wirioneddol.
Mae'r swm helaeth o ddata sydd ar gael ar y rhyngrwyd wedi rhoi ffordd i ymchwilwyr fodelu cymhlethdodau iaith. Fodd bynnag, ar hyd y ffordd, mae'n ymddangos bod y modelau iaith hyn wedi magu dealltwriaeth ddynol o'r byd fel y mae.
Wrth i'r cyhoedd ddechrau ymddiried yn y modelau iaith hyn i ddarparu allbwn cywir, mae ymchwilwyr a datblygwyr eisoes yn dod o hyd i ffyrdd o ychwanegu rheiliau gwarchod fel bod y dechnoleg yn aros yn foesegol.
Beth yn eich barn chi yw dyfodol LLMs?
Gadael ymateb