Tabl Cynnwys[Cuddio][Dangos]
Mae'r AI newydd a gwell wedi gwella galluoedd, dealltwriaeth, a'r gallu i gynhyrchu delweddau cydraniad uwch. Efallai eich bod wedi dod ar draws rhai delweddau rhyfedd a doniol yn arnofio o gwmpas y rhyngrwyd yn ddiweddar.
Mae ci Shiba Inu wedi'i wisgo mewn beret a chrwban du. A dyfrgi môr yn null “Girl with a Pearl Earring” yr arlunydd o’r Iseldiroedd Vermeer. Ac mae yna baned o gawl sy'n edrych fel anghenfil gwlanog.
Mae'r delweddau hyn na chawsant eu creu gan arlunydd dynol.
Yn lle hynny, creodd DALL-E 2, system AI newydd sy'n gallu trosi disgrifiadau testunol yn ddelweddau.
Yn syml, ysgrifennwch yr hyn rydych chi am ei weld, a bydd yr AI yn ei greu i chi - yn fanwl iawn, ansawdd gwych, ac, mewn rhai achosion, dyfeisgarwch gwirioneddol. Yn y swydd hon, byddwn yn edrych yn ddwfn ar astudiaeth ddiweddaraf OpenAI, DALL.E 2, yn ogystal â sut mae'n gweithio, a llawer mwy. Gadewch i ni ddechrau.
Felly, beth yn union yw DALL.E 2?
Mae DALL-E 2 yn “fodel cynhyrchiol,” sef math o algorithm dysgu peirianyddol sy'n cynhyrchu allbwn cymhleth yn hytrach na chyflawni tasgau rhagfynegi neu ddosbarthu ar ddata mewnbwn.
Rydych chi'n rhoi disgrifiad ysgrifenedig i DALL-E 2, ac mae'n creu llun sy'n cyfateb iddo. Trwy gyfuno cysyniadau, rhinweddau ac arddulliau, gall DALLE 2 OpenAI gynhyrchu graffeg a chelf arloesol, realistig o ddisgrifiad ieithyddol sylfaenol.
Dywedir bod y fersiwn ddiweddaraf, DALLE 2, yn fwy amlbwrpas, yn gallu gwneud lluniau o gapsiynau ar gydraniad uwch ac mewn sbectrwm ehangach o arddulliau creadigol. Er enghraifft, mae'r lluniau isod (o bost blog DALL-E 2) yn cael eu creu gan y disgrifiad “Gofodwr yn marchogaeth ceffyl.”
Mae un disgrifiad yn cloi, “fel braslun pensil,” tra bod y llall yn dod i’r casgliad, “mewn modd ffotorealistig.”
Gall hefyd newid ffotograffau presennol gyda manwl gywirdeb rhyfeddol. Felly, gallwch chi ychwanegu neu ddileu elfennau wrth gadw lliwiau, adlewyrchiadau a chysgodion, i gyd wrth gynnal ymddangosiad y ddelwedd wreiddiol.
Sut mae'n gweithio?
Mae DALL-E 2 yn defnyddio modelau CLIP a gwasgariad, dau soffistigedig dysgu dwfn dulliau a ddatblygwyd yn ystod y blynyddoedd diwethaf. Fodd bynnag, mae'n seiliedig ar yr un syniad â phob dwfn arall rhwydweithiau niwral: dysgu cynrychiolaeth. Mae CLIP yn hyfforddi dau ar yr un pryd rhwydweithiau nefol ar luniau a chapsiynau.
Mae un rhwydwaith yn dysgu'r cynrychioliadau gweledol yn y llun, tra bod y llall yn dysgu'r cynrychioliadau testun. Yn ystod yr hyfforddiant, mae'r ddau rwydwaith yn ceisio addasu eu paramedrau fel bod lluniau a disgrifiadau tebyg yn arwain at ymgorfforiadau tebyg.
“Diffusion,” math o fodel cynhyrchiol sy'n dysgu gwneud lluniau trwy snio'n raddol a dadwneud ei samplau hyfforddi, yw'r dull dysgu peiriant arall a ddefnyddir yn DALL-E 2. Mae modelau trylediad yn debyg i awto-godyddion gan eu bod yn trawsnewid data mewnbwn yn gwreiddio cynrychioliad ac yna defnyddio'r wybodaeth mewnosod i ail-greu'r data gwreiddiol.
Defnyddio OpenAI's model iaith Mae CLIP, sy'n gallu cysylltu disgrifiadau testunol â ffotograffau, yn gyntaf yn trosi'r anogwr ysgrifenedig i ffurf ganolraddol sy'n ymgorffori'r priodweddau hanfodol y dylai fod gan lun i gyd-fynd â'r anogwr hwnnw (yn ôl CLIP).
Yn ail, mae DALL-E 2 yn creu sy'n cydymffurfio â CLIP delwedd gan ddefnyddio model trylediad, sy'n rhwydwaith niwral.
Ar luniau gwyrgam gyda phicseli ar hap, dysgir modelau trylediad. Dysgant sut i adfer ffurf wreiddiol y lluniau. Gall modelau trylediad gynhyrchu delweddau synthetig o ansawdd uchel, yn enwedig pan gânt eu defnyddio ar y cyd â dull arweiniol sy'n blaenoriaethu cywirdeb dros amrywiaeth.
O ganlyniad, mae'r model trylediad yn cymryd y picsel ar hap ac yn defnyddio CLIP i'w trosi'n ddelwedd newydd sy'n cyfateb i'r gair anogwr. Oherwydd y cysyniad tryledu, gall DALL-E 2 gynhyrchu delweddau cydraniad uwch yn gyflymach na DALL-E.
Achos defnydd DALL.E 2
Yn yr ugain mlynedd diwethaf, gweledigaeth gyfrifiadurol mae technoleg wedi symud ymlaen o syniad syml i ddatblygiad mawr. Er gwaethaf y datblygiadau hyn, mae modelau adnabod lluniau a gwrthrychau yn dal i wynebu rhwystrau sylweddol mewn bywyd bob dydd. Mae absenoldeb setiau data yn un o anfanteision mwyaf arwyddocaol adnabod delweddau a gweledigaeth gyfrifiadurol. Oherwydd bod prinder data ar y ddau ben, mae hyfforddi modelau adnabod delwedd i roi canlyniadau cywir 100 y cant bron yn anodd.
Yn ffodus, gall model dysgu peiriannau newydd OpenAI bontio'r bwlch mewn technoleg. Mae DALLE 2 yn gallu cynhyrchu lluniau anhygoel yn seiliedig ar ddisgrifiadau testun. Gall y cynhyrchiad llun ffug hwn ddarparu data i fodelau adnabod delwedd yn seiliedig ar eu gofynion. Mae absenoldeb data yn faen tramgwydd sylweddol ar gyfer adnabod gwrthrychau a lluniau.
Yn yr oes ddigidol, mae setiau data yn hollbresennol, ac eto rydym yn dal i chwilio am lwybrau byr i fwydo'r model AI, fel y gall ddarparu canlyniadau da. Fodd bynnag, nid yw'n syml hyfforddi model adnabod delwedd. Mae'n gofyn am nifer fawr o setiau data heb fawr o wahaniaethau, efallai na fyddem wedi gallu eu hadalw'n syml.
Felly, beth yw'r ateb: Yr ateb yw DALLE 2. Gall generadur lluniau OpenAI, gyda'i allu i gynhyrchu delweddau o destunau a newid y rhai presennol, helpu i bontio'r bwlch. Bydd hyn yn helpu i gynhyrchu data hyfforddi ychwanegol tra hefyd yn lleihau faint o labelu dynol sydd ei angen. Er gwaethaf y budd sylweddol, dylech fod yn ymwybodol o gynyrchiadau delwedd twyllodrus a delweddau sy'n eithrio cynhwysiant. Gallai hyn arwain at ddulliau canfod delweddau yn cynhyrchu canlyniadau rhagfarnllyd.
Cyfyngiadau
Mae’n bosibl iawn y bydd gan DALL.E 2 ddylanwad niweidiol os yw’n syrthio i’r dwylo anghywir, yn ôl OpenAI. Yn y byd heddiw o ffugiau dwfn, gellid defnyddio'r model yn hawdd i ledaenu gwybodaeth ffug neu ddelweddaeth hiliol, a dyna pam mae OpenAI yn caniatáu i ddatblygwyr ddefnyddio DALL.2 trwy wahoddiad yn unig. Rhaid i'r model gydymffurfio â chyfyngiad cynnwys trwyadl ar gyfer pob awgrym a gaiff.
I eithrio'r potensial i DALL.E 2 greu unrhyw luniau gelyniaethus neu dreisgar, crëwyd y set ddata heb unrhyw arfau marwol. Er bod OpenAI wedi datgan ei fod yn bwriadu ei drawsnewid yn API yn y dyfodol, yn achos DALL.E 2, mae'n barod i fwrw ymlaen â gofal.
Casgliad
Mae DALL-E 2 yn ddarganfyddiad ymchwil OpenAI diddorol arall sy'n agor y drws i geisiadau newydd.
Un enghraifft yw creu setiau data enfawr i gwrdd ag un o brif dagfeydd gweledigaeth gyfrifiadurol – data. Er y bydd yr achos economaidd dros lawer o apiau sy'n seiliedig ar DALL-E yn cael ei bennu gan y pris a'r polisïau y mae OpenAI yn eu sefydlu ar gyfer ei ddefnyddwyr API, byddant i gyd yn ddi-os yn hyrwyddo cynhyrchu lluniau.
Gadael ymateb