DALL.E 2 - Trowch Eich Meddyliau yn Delweddau gan Ddefnyddio Testun

Tabl Cynnwys[Cuddio][Dangos]

Felly, beth yn union yw DALL.E 2?
Sut mae'n gweithio?
Achos defnydd DALL.E 2
Cyfyngiadau
Casgliad

Mae'r AI newydd a gwell wedi gwella galluoedd, dealltwriaeth, a'r gallu i gynhyrchu delweddau cydraniad uwch. Efallai eich bod wedi dod ar draws rhai delweddau rhyfedd a doniol yn arnofio o gwmpas y rhyngrwyd yn ddiweddar.

Mae ci Shiba Inu wedi'i wisgo mewn beret a chrwban du. A dyfrgi môr yn null “Girl with a Pearl Earring” yr arlunydd o’r Iseldiroedd Vermeer. Ac mae yna baned o gawl sy'n edrych fel anghenfil gwlanog.

Mae'r delweddau hyn na chawsant eu creu gan arlunydd dynol.

Yn lle hynny, creodd DALL-E 2, system AI newydd sy'n gallu trosi disgrifiadau testunol yn ddelweddau.

Yn syml, ysgrifennwch yr hyn rydych chi am ei weld, a bydd yr AI yn ei greu i chi - yn fanwl iawn, ansawdd gwych, ac, mewn rhai achosion, dyfeisgarwch gwirioneddol. Yn y swydd hon, byddwn yn edrych yn ddwfn ar astudiaeth ddiweddaraf OpenAI, DALL.E 2, yn ogystal â sut mae'n gweithio, a llawer mwy. Gadewch i ni ddechrau.

Felly, beth yn union yw DALL.E 2?

Mae DALL-E 2 yn “fodel cynhyrchiol,” sef math o algorithm dysgu peirianyddol sy'n cynhyrchu allbwn cymhleth yn hytrach na chyflawni tasgau rhagfynegi neu ddosbarthu ar ddata mewnbwn.

Rydych chi'n rhoi disgrifiad ysgrifenedig i DALL-E 2, ac mae'n creu llun sy'n cyfateb iddo. Trwy gyfuno cysyniadau, rhinweddau ac arddulliau, gall DALLE 2 OpenAI gynhyrchu graffeg a chelf arloesol, realistig o ddisgrifiad ieithyddol sylfaenol.

Dywedir bod y fersiwn ddiweddaraf, DALLE 2, yn fwy amlbwrpas, yn gallu gwneud lluniau o gapsiynau ar gydraniad uwch ac mewn sbectrwm ehangach o arddulliau creadigol. Er enghraifft, mae'r lluniau isod (o bost blog DALL-E 2) yn cael eu creu gan y disgrifiad “Gofodwr yn marchogaeth ceffyl.”

Mae un disgrifiad yn cloi, “fel braslun pensil,” tra bod y llall yn dod i’r casgliad, “mewn modd ffotorealistig.”

Gofodwr yn Marchogaeth Ceffyl

Gall hefyd newid ffotograffau presennol gyda manwl gywirdeb rhyfeddol. Felly, gallwch chi ychwanegu neu ddileu elfennau wrth gadw lliwiau, adlewyrchiadau a chysgodion, i gyd wrth gynnal ymddangosiad y ddelwedd wreiddiol.

Sut mae'n gweithio?

Mae DALL-E 2 yn defnyddio modelau CLIP a gwasgariad, dau soffistigedig dysgu dwfn dulliau a ddatblygwyd yn ystod y blynyddoedd diwethaf. Fodd bynnag, mae'n seiliedig ar yr un syniad â phob dwfn arall rhwydweithiau niwral: dysgu cynrychiolaeth. Mae CLIP yn hyfforddi dau ar yr un pryd rhwydweithiau nefol ar luniau a chapsiynau.

Mae un rhwydwaith yn dysgu'r cynrychioliadau gweledol yn y llun, tra bod y llall yn dysgu'r cynrychioliadau testun. Yn ystod yr hyfforddiant, mae'r ddau rwydwaith yn ceisio addasu eu paramedrau fel bod lluniau a disgrifiadau tebyg yn arwain at ymgorfforiadau tebyg.

“Diffusion,” math o fodel cynhyrchiol sy'n dysgu gwneud lluniau trwy snio'n raddol a dadwneud ei samplau hyfforddi, yw'r dull dysgu peiriant arall a ddefnyddir yn DALL-E 2. Mae modelau trylediad yn debyg i awto-godyddion gan eu bod yn trawsnewid data mewnbwn yn gwreiddio cynrychioliad ac yna defnyddio'r wybodaeth mewnosod i ail-greu'r data gwreiddiol.

DALL.E2 Gweithio

Defnyddio OpenAI's model iaith Mae CLIP, sy'n gallu cysylltu disgrifiadau testunol â ffotograffau, yn gyntaf yn trosi'r anogwr ysgrifenedig i ffurf ganolraddol sy'n ymgorffori'r priodweddau hanfodol y dylai fod gan lun i gyd-fynd â'r anogwr hwnnw (yn ôl CLIP).

Yn ail, mae DALL-E 2 yn creu sy'n cydymffurfio â CLIP delwedd gan ddefnyddio model trylediad, sy'n rhwydwaith niwral.

Ar luniau gwyrgam gyda phicseli ar hap, dysgir modelau trylediad. Dysgant sut i adfer ffurf wreiddiol y lluniau. Gall modelau trylediad gynhyrchu delweddau synthetig o ansawdd uchel, yn enwedig pan gânt eu defnyddio ar y cyd â dull arweiniol sy'n blaenoriaethu cywirdeb dros amrywiaeth.

O ganlyniad, mae'r model trylediad yn cymryd y picsel ar hap ac yn defnyddio CLIP i'w trosi'n ddelwedd newydd sy'n cyfateb i'r gair anogwr. Oherwydd y cysyniad tryledu, gall DALL-E 2 gynhyrchu delweddau cydraniad uwch yn gyflymach na DALL-E.

Achos defnydd DALL.E 2

Yn yr ugain mlynedd diwethaf, gweledigaeth gyfrifiadurol mae technoleg wedi symud ymlaen o syniad syml i ddatblygiad mawr. Er gwaethaf y datblygiadau hyn, mae modelau adnabod lluniau a gwrthrychau yn dal i wynebu rhwystrau sylweddol mewn bywyd bob dydd. Mae absenoldeb setiau data yn un o anfanteision mwyaf arwyddocaol adnabod delweddau a gweledigaeth gyfrifiadurol. Oherwydd bod prinder data ar y ddau ben, mae hyfforddi modelau adnabod delwedd i roi canlyniadau cywir 100 y cant bron yn anodd.

Yn ffodus, gall model dysgu peiriannau newydd OpenAI bontio'r bwlch mewn technoleg. Mae DALLE 2 yn gallu cynhyrchu lluniau anhygoel yn seiliedig ar ddisgrifiadau testun. Gall y cynhyrchiad llun ffug hwn ddarparu data i fodelau adnabod delwedd yn seiliedig ar eu gofynion. Mae absenoldeb data yn faen tramgwydd sylweddol ar gyfer adnabod gwrthrychau a lluniau.

Yn yr oes ddigidol, mae setiau data yn hollbresennol, ac eto rydym yn dal i chwilio am lwybrau byr i fwydo'r model AI, fel y gall ddarparu canlyniadau da. Fodd bynnag, nid yw'n syml hyfforddi model adnabod delwedd. Mae'n gofyn am nifer fawr o setiau data heb fawr o wahaniaethau, efallai na fyddem wedi gallu eu hadalw'n syml.

Felly, beth yw'r ateb: Yr ateb yw DALLE 2. Gall generadur lluniau OpenAI, gyda'i allu i gynhyrchu delweddau o destunau a newid y rhai presennol, helpu i bontio'r bwlch. Bydd hyn yn helpu i gynhyrchu data hyfforddi ychwanegol tra hefyd yn lleihau faint o labelu dynol sydd ei angen. Er gwaethaf y budd sylweddol, dylech fod yn ymwybodol o gynyrchiadau delwedd twyllodrus a delweddau sy'n eithrio cynhwysiant. Gallai hyn arwain at ddulliau canfod delweddau yn cynhyrchu canlyniadau rhagfarnllyd.

Cyfyngiadau

Mae’n bosibl iawn y bydd gan DALL.E 2 ddylanwad niweidiol os yw’n syrthio i’r dwylo anghywir, yn ôl OpenAI. Yn y byd heddiw o ffugiau dwfn, gellid defnyddio'r model yn hawdd i ledaenu gwybodaeth ffug neu ddelweddaeth hiliol, a dyna pam mae OpenAI yn caniatáu i ddatblygwyr ddefnyddio DALL.2 trwy wahoddiad yn unig. Rhaid i'r model gydymffurfio â chyfyngiad cynnwys trwyadl ar gyfer pob awgrym a gaiff.

I eithrio'r potensial i DALL.E 2 greu unrhyw luniau gelyniaethus neu dreisgar, crëwyd y set ddata heb unrhyw arfau marwol. Er bod OpenAI wedi datgan ei fod yn bwriadu ei drawsnewid yn API yn y dyfodol, yn achos DALL.E 2, mae'n barod i fwrw ymlaen â gofal.

Casgliad

Mae DALL-E 2 yn ddarganfyddiad ymchwil OpenAI diddorol arall sy'n agor y drws i geisiadau newydd.

Un enghraifft yw creu setiau data enfawr i gwrdd ag un o brif dagfeydd gweledigaeth gyfrifiadurol – data. Er y bydd yr achos economaidd dros lawer o apiau sy'n seiliedig ar DALL-E yn cael ei bennu gan y pris a'r polisïau y mae OpenAI yn eu sefydlu ar gyfer ei ddefnyddwyr API, byddant i gyd yn ddi-os yn hyrwyddo cynhyrchu lluniau.

DALL.E 2 – Trowch Eich Meddyliau yn Delweddau gan Ddefnyddio Testun

Felly, beth yn union yw DALL.E 2?

Sut mae'n gweithio?

Achos defnydd DALL.E 2

Cyfyngiadau

Casgliad

Ynghylch Jay

Mwy o erthyglau ar HashDork:

Sut i Leihau Rhithweledigaethau yn Eich AI

Colossyan yn erbyn Heygen

Nid yw'r Cylchlythyr Tech Future hwn yn Swper

DALL.E 2 – Trowch Eich Meddyliau yn Delweddau gan Ddefnyddio Testun

Felly, beth yn union yw DALL.E 2?

Sut mae'n gweithio?

Achos defnydd DALL.E 2

Cyfyngiadau

Casgliad

Ynghylch Jay

Mwy o erthyglau ar HashDork:

Sut i Leihau Rhithweledigaethau yn Eich AI

10 Offeryn AI Gorau ar gyfer Cyfryngau Cymdeithasol

Colossyan yn erbyn Heygen

10 Offeryn Gwneuthurwr Fideo Animeiddiedig Gorau AI

Rhyngweithiadau Reader

Gadael ymateb Diddymu ateb

Nid yw'r Cylchlythyr Tech Future hwn yn Swper