Mae'n debyg mai dim ond ar ddechrau chwyldro AI cynhyrchiol newydd yr ydym.
Mae deallusrwydd artiffisial cynhyrchiol yn cyfeirio at algorithmau a modelau sy'n gallu creu cynnwys. Mae allbwn modelau o'r fath yn cynnwys testun, sain, a delweddau y gellir eu camgymryd yn aml fel allbwn dynol go iawn.
Ceisiadau fel SgwrsGPT wedi dangos nad newydd-deb yn unig yw AI cynhyrchiol. Mae AI bellach yn gallu dilyn cyfarwyddiadau manwl ac mae'n ymddangos bod ganddo ddealltwriaeth ddofn o sut mae'r byd yn gweithio.
Ond sut wnaethon ni gyrraedd y pwynt hwn? Yn y canllaw hwn, byddwn yn mynd trwy rai o'r datblygiadau allweddol mewn ymchwil AI sydd wedi paratoi'r ffordd ar gyfer y chwyldro AI cynhyrchiol newydd a chyffrous hwn.
Cynnydd Rhwydweithiau Niwral
Gallwch olrhain gwreiddiau AI modern i'r ymchwil ar dysgu dwfn a rhwydweithiau niwral yn 2012.
Yn y flwyddyn honno, llwyddodd Alex Krizhevsky a'i dîm o Brifysgol Toronto i gyflawni algorithm hynod gywir a all ddosbarthu gwrthrychau.
Mae adroddiadau rhwydwaith niwral o'r radd flaenaf, a elwir bellach yn AlexNet, yn gallu dosbarthu gwrthrychau yng nghronfa ddata weledol ImageNet gyda chyfradd gwallau llawer is na'r ail safle.
Rhwydweithiau niwral yn algorithmau sy'n defnyddio rhwydwaith o swyddogaethau mathemategol i ddysgu ymddygiad penodol yn seiliedig ar rywfaint o ddata hyfforddi. Er enghraifft, gallwch fwydo data meddygol rhwydwaith niwral er mwyn hyfforddi'r model i wneud diagnosis o glefyd fel canser.
Y gobaith yw bod y rhwydwaith niwral yn dod o hyd i batrymau yn y data yn araf ac yn dod yn fwy cywir o gael data newydd.
Roedd AlexNet yn gais arloesol o a rhwydwaith niwral argyhoeddiadol neu CNNs. Mae’r allweddair “convolutional” yn cyfeirio at ychwanegu haenau convolutional sy’n rhoi mwy o bwyslais ar ddata sy’n agosach at ei gilydd.
Er bod CNNs eisoes yn syniad yn yr 1980au, dim ond yn gynnar yn y 2010au y dechreuon nhw ennill poblogrwydd pan wthiodd y dechnoleg GPU ddiweddaraf y dechnoleg i uchelfannau newydd.
Mae llwyddiant CNNs ym maes gweledigaeth gyfrifiadurol arwain at fwy o ddiddordeb mewn ymchwil i rwydweithiau niwral.
Penderfynodd cewri technoleg fel Google a Facebook ryddhau eu fframweithiau AI eu hunain i'r cyhoedd. APIs lefel uchel fel Keras rhoddodd ryngwyneb hawdd ei ddefnyddio i ddefnyddwyr arbrofi gyda rhwydweithiau niwral dwfn.
Roedd CNNs yn wych am adnabod delweddau a dadansoddi fideo ond roeddent yn cael trafferth wrth ddatrys problemau iaith. Gallai'r cyfyngiad hwn mewn prosesu iaith naturiol fodoli oherwydd bod sut mae delweddau a thestun mewn gwirionedd yn broblemau sylfaenol wahanol.
Er enghraifft, os oes gennych fodel sy'n dosbarthu a yw delwedd yn cynnwys golau traffig, gall y golau traffig dan sylw ymddangos yn unrhyw le yn y ddelwedd. Fodd bynnag, nid yw'r math hwn o drugaredd yn gweithio'n dda yn yr iaith. Mae gan y frawddeg “Bob ate fish” a “Fish ate Bob” ystyron tra gwahanol er eu bod yn defnyddio’r un geiriau.
Daeth yn amlwg bod angen i ymchwilwyr ddod o hyd i ddull newydd o ddatrys problemau yn ymwneud ag iaith ddynol.
Mae trawsnewidyddion yn newid popeth
Yn 2017, i papur ymchwil dan y teitl “Attention Is All You Need” a gynigiodd fath newydd o rwydwaith: y Trawsnewidydd.
Tra bod CNNs yn gweithio trwy hidlo darnau bach o ddelwedd dro ar ôl tro, mae trawsnewidyddion yn cysylltu pob elfen yn y data â phob elfen arall. Mae ymchwilwyr yn galw’r broses hon yn “hunan-sylw”.
Wrth geisio dosrannu brawddegau, mae CNNs a thrawsnewidwyr yn gweithio'n wahanol iawn. Tra bydd CNN yn canolbwyntio ar ffurfio cysylltiadau â geiriau sy'n agos at ei gilydd, bydd newidydd yn creu cysylltiadau rhwng pob gair mewn brawddeg.
Mae'r broses hunan-sylw yn rhan annatod o ddeall iaith ddynol. Trwy glosio allan ac edrych ar sut mae'r frawddeg gyfan yn cyd-fynd â'i gilydd, gall peiriannau gael dealltwriaeth gliriach o strwythur y frawddeg.
Unwaith y rhyddhawyd y modelau trawsnewidyddion cyntaf, yn fuan defnyddiodd ymchwilwyr y bensaernïaeth newydd i fanteisio ar y swm anhygoel o ddata testun a ddarganfuwyd ar y rhyngrwyd.
GPT-3 a'r Rhyngrwyd
Yn 2020, OpenAI's GPT-3 dangosodd y model pa mor effeithiol y gall trawsnewidyddion fod. Roedd GPT-3 yn gallu allbynnu testun sy'n ymddangos bron yn anwahanadwy oddi wrth ddyn. Rhan o'r hyn a wnaeth GPT-3 mor bwerus oedd faint o ddata hyfforddi a ddefnyddiwyd. Daw'r rhan fwyaf o set ddata cyn-hyfforddiant y model o set ddata a elwir yn Common Crawl sy'n dod â dros 400 biliwn o docynnau.
Er bod gallu GPT-3 i gynhyrchu testun dynol realistig yn torri tir newydd ar ei ben ei hun, darganfu ymchwilwyr sut y gall yr un model ddatrys tasgau eraill.
Er enghraifft, gall yr un model GPT-3 y gallwch ei ddefnyddio i gynhyrchu trydariad hefyd eich helpu i grynhoi testun, ailysgrifennu paragraff, a gorffen stori. Modelau iaith wedi dod mor bwerus fel eu bod bellach yn eu hanfod yn offer pwrpas cyffredinol sy'n dilyn unrhyw fath o orchymyn.
Mae natur pwrpas cyffredinol GPT-3 wedi caniatáu ar gyfer ceisiadau o'r fath Copilot GitHub, sy'n galluogi rhaglenwyr i gynhyrchu cod gweithio o Saesneg clir.
Modelau Tryledu: O Destun i Ddelweddau
Mae'r cynnydd a wnaed gyda thrawsnewidwyr a NLP hefyd wedi paratoi'r ffordd ar gyfer AI cynhyrchiol mewn meysydd eraill.
Ym maes gweledigaeth gyfrifiadurol, rydym eisoes wedi ymdrin â sut roedd dysgu dwfn yn caniatáu i beiriannau ddeall delweddau. Fodd bynnag, roedd angen i ni ddod o hyd i ffordd i AI gynhyrchu delweddau eu hunain yn hytrach na'u dosbarthu yn unig.
Mae modelau delwedd cynhyrchiol fel DALL-E 2, Stable Diffusion, a Midjourney wedi dod yn boblogaidd oherwydd sut maen nhw'n gallu trosi mewnbwn testun yn ddelweddau.
Mae'r modelau delwedd hyn yn dibynnu ar ddwy agwedd allweddol: model sy'n deall y berthynas rhwng delweddau a thestun a model a all greu delwedd diffiniad uchel sy'n cyfateb i'r mewnbwn.
OpenAI's CLIP Mae (Iaith Gyferbyniol - Rhag-hyfforddiant Delwedd) yn fodel ffynhonnell agored sy'n ceisio datrys yr agwedd gyntaf. O gael delwedd, gall y model CLIP ragweld y disgrifiad testun mwyaf perthnasol ar gyfer y ddelwedd benodol honno.
Mae'r model CLIP yn gweithio trwy ddysgu sut i dynnu nodweddion delwedd pwysig a chreu cynrychioliad symlach o ddelwedd.
Pan fydd defnyddwyr yn darparu mewnbwn testun sampl i DALL-E 2, caiff y mewnbwn ei drawsnewid yn “ymgorffori delwedd” gan ddefnyddio model CLIP. Y nod nawr yw dod o hyd i ffordd i gynhyrchu delwedd sy'n cyd-fynd â'r ymgorfforiad delwedd a gynhyrchir.
Mae'r AIs delwedd cynhyrchiol diweddaraf yn defnyddio a model trylediad i fynd i'r afael â'r dasg o greu delwedd mewn gwirionedd. Mae modelau trylediad yn dibynnu ar rwydweithiau niwral a gafodd eu hyfforddi ymlaen llaw i wybod sut i gael gwared ar sŵn ychwanegol o ddelweddau.
Yn ystod y broses hon o hyfforddi, gall y rhwydwaith niwral ddysgu yn y pen draw sut i greu delwedd cydraniad uchel o ddelwedd sŵn ar hap. Gan fod gennym eisoes fapio testun a delweddau a ddarperir gan CLIP, gallwn hyfforddi model trylediad ar fewnosodiadau delwedd CLIP i greu proses i gynhyrchu unrhyw ddelwedd.
Chwyldro AI cynhyrchiol: Beth sy'n dod nesaf?
Rydym bellach wedi cyrraedd pwynt lle mae datblygiadau arloesol mewn AI cynhyrchiol yn digwydd bob dau ddiwrnod. Gyda hi'n dod yn haws ac yn haws cynhyrchu gwahanol fathau o gyfryngau gan ddefnyddio deallusrwydd artiffisial, a ddylem ni boeni sut y gallai hyn effeithio ar ein cymdeithas?
Er bod y pryderon am beiriannau yn cymryd lle gweithwyr bob amser wedi bod yn y sgwrs ers dyfeisio'r injan stêm, mae'n ymddangos ei bod ychydig yn wahanol y tro hwn.
Mae AI cynhyrchiol yn dod yn offeryn amlbwrpas a allai darfu ar ddiwydiannau yr ystyriwyd eu bod yn ddiogel rhag meddiannu AI.
A fydd angen rhaglenwyr arnom os gall AI ddechrau ysgrifennu cod di-ffael o ychydig o gyfarwyddiadau sylfaenol? A fydd pobl yn llogi pobl greadigol os gallant ddefnyddio model cynhyrchiol i gynhyrchu'r allbwn y maent ei eisiau yn rhatach?
Mae'n anodd rhagweld dyfodol y chwyldro AI cynhyrchiol. Ond nawr bod blwch ffigurol Pandora wedi'i agor, rwy'n gobeithio y bydd y dechnoleg yn caniatáu ar gyfer arloesiadau mwy cyffrous a all adael effaith gadarnhaol ar y byd.
Gadael ymateb