Ni awọn ọdun aipẹ, awọn awoṣe ikẹkọ jinlẹ ti di imunadoko diẹ sii ni oye ede eniyan.
Ro ti ise agbese bi GPT-3, eyiti o ni anfani lati ṣẹda gbogbo awọn nkan ati awọn oju opo wẹẹbu. GitHub ti ṣafihan laipẹ GitHub Alakoso, Iṣẹ kan ti o pese gbogbo awọn snippets koodu nipa ṣiṣe apejuwe iru koodu ti o nilo.
Awọn oniwadi ni OpenAI, Facebook, ati Google ti n ṣiṣẹ lori awọn ọna lati lo ẹkọ ti o jinlẹ lati mu iṣẹ-ṣiṣe miiran ṣiṣẹ: awọn aworan ifori. Lilo dataset nla pẹlu awọn miliọnu awọn titẹ sii, wọn ti wa pẹlu diẹ ninu iyalẹnu awọn esi.
Laipẹ, awọn oniwadi wọnyi ti gbiyanju lati ṣe iṣẹ-ṣiṣe idakeji: ṣiṣẹda awọn aworan lati akọle. Ṣe o ṣee ṣe bayi lati ṣẹda aworan tuntun patapata lati inu apejuwe kan?
Itọsọna yii yoo ṣawari meji ninu awọn awoṣe ọrọ-si-aworan to ti ni ilọsiwaju julọ: OpenAI's DALL-E 2 ati Google's Imagen AI. Olukuluku awọn iṣẹ akanṣe wọnyi ti ṣafihan awọn ọna idasile ti o le yi awujọ pada bi a ti mọ ọ.
Ṣugbọn ni akọkọ, jẹ ki a loye ohun ti a tumọ si nipasẹ ọrọ-si-iran aworan.
Kini iran ọrọ-si-aworan?
Awọn awoṣe ọrọ-si-aworan gba awọn kọmputa laaye lati ṣẹda titun ati ki o oto awọn aworan da lori ta. Awọn eniyan le bayi pese apejuwe ọrọ ti aworan ti wọn fẹ gbejade, ati pe awoṣe yoo gbiyanju lati ṣẹda wiwo ti o baamu apejuwe yẹn ni pẹkipẹki bi o ti ṣee.
Awọn awoṣe ikẹkọ ẹrọ ti lo lilo awọn iwe data nla ti o ni awọn orisii aworan-aworan lati mu ilọsiwaju siwaju sii.
Pupọ ọrọ-si-aworan awọn awoṣe lo awoṣe ede transformer lati túmọ awọn ta. Iru awoṣe yii jẹ a Nẹtiwọki ti nhu tí ó gbìyànjú láti kọ́ ọ̀rọ̀ àyíká àti ìtumọ̀ ìtumọ̀ èdè àdánidá.
Nigbamii ti, awọn awoṣe ipilẹṣẹ gẹgẹbi awọn awoṣe itankale ati generative adversarial nẹtiwọki wa ni lilo fun aworan kolaginni.
Kini DALLE 2?
DALL-E2 jẹ awoṣe kọnputa nipasẹ OpenAI ti o ti tu silẹ ni Oṣu Kẹrin ọdun 2022. A ṣe ikẹkọ awoṣe lori ibi ipamọ data ti awọn miliọnu awọn aworan ti o ni aami lati ṣepọ awọn ọrọ ati awọn gbolohun ọrọ si awọn aworan.
Awọn olumulo le tẹ gbolohun ọrọ ti o rọrun, gẹgẹbi "ologbo ti njẹ lasagna", ati DALL-E 2 yoo ṣe itumọ ti ara rẹ ti ohun ti gbolohun naa n gbiyanju lati ṣe apejuwe.
Yato si ṣiṣẹda awọn aworan lati ibere, DALL-E 2 tun le ṣatunkọ awọn aworan ti o wa tẹlẹ. Ni apẹẹrẹ ni isalẹ, DALL-E ni anfani lati ṣe agbejade aworan ti a tunṣe ti yara kan pẹlu ijoko ti a ṣafikun.
DALL-E 2 jẹ ọkan ninu ọpọlọpọ awọn iṣẹ akanṣe ti OpenAI ti tu silẹ ni awọn ọdun diẹ sẹhin. OpenAI's GPT-3 di iroyin nigbati o dabi pe o ṣe agbekalẹ ọrọ ti awọn aza oriṣiriṣi.
Lọwọlọwọ, DALL-E 2 tun wa ni idanwo beta. Awọn olumulo ti o nifẹ le forukọsilẹ fun wọn nduro akojọ ati ki o duro fun wiwọle.
Bawo ni O Ṣe Nṣiṣẹ?
Lakoko ti awọn abajade ti DALL-E 2 jẹ iwunilori, o le ṣe iyalẹnu bi gbogbo rẹ ṣe n ṣiṣẹ.
DALL-E 2 jẹ apẹẹrẹ ti imuse multimodal ti iṣẹ akanṣe GPT-3 OpenAI.
Ni akọkọ, itọsi ọrọ olumulo ni a gbe sinu koodu koodu kan ti o ṣe atọka itọsi naa si aaye aṣoju kan. DALL-E 2 nlo awoṣe OpenAI miiran ti a npe ni CLIP (Ede Contrastive-Image Pre-Training) lati gba alaye atunmọ lati ede adayeba.
Next, a awoṣe mọ bi awọn saju maapu ifaminsi ọrọ sinu fifi koodu si aworan. Ifaminsi aworan yii yẹ ki o gba alaye atunmọ ti o rii ni igbesẹ fifi koodu ọrọ naa.
Lati ṣẹda aworan gangan, DALL-E 2 nlo oluyipada aworan lati ṣe ipilẹṣẹ wiwo nipa lilo alaye atunmọ ati awọn alaye fifi koodu aworan. OpenAI nlo ẹya títúnṣe ti awọn GLIDE awoṣe lati ṣe iran aworan. GLIDE gbarale a itankale awoṣe lati ṣẹda awọn aworan.
Ipilẹṣẹ GLIDE si awoṣe DALL-E 2 mu iṣẹjade fọtoyiti diẹ sii ṣiṣẹ. Niwọn igba ti awoṣe GLIDE jẹ sitokasitik tabi ipinnu laileto, awoṣe DALL-E 2 le ṣẹda irọrun ṣẹda awọn iyatọ nipa ṣiṣe awoṣe lẹẹkansi ati lẹẹkansi.
idiwọn
Pelu awọn abajade iwunilori ti awoṣe DALL-E 2, o tun dojukọ diẹ ninu awọn idiwọn.
Ọrọ Akọtọ
Awọn ibeere ti o gbiyanju lati jẹ ki DALL-E 2 ṣe agbejade ọrọ ṣafihan pe o ni iṣoro ti awọn ọrọ akọtọ. Awọn amoye ro pe eyi le jẹ nitori alaye akọtọ kii ṣe apakan ti ipilẹ data ikẹkọ.
Idi ti Akopọ
Awọn oniwadi ṣe akiyesi pe DALL-E 2 tun ni iṣoro diẹ pẹlu ironu akojọpọ. Ni kukuru, awoṣe le loye awọn ẹya ara ẹni kọọkan ti aworan kan lakoko ti o tun ni iṣoro lati pinnu awọn ibatan laarin awọn aaye wọnyi.
Fun apẹẹrẹ, ti o ba fun ni kiakia “cube pupa lori oke cube buluu”, DALL-E yoo ṣe agbejade cube buluu ati cube pupa kan ni deede ṣugbọn kuna lati gbe wọn si deede. Awoṣe naa tun ti ṣe akiyesi lati ni iṣoro pẹlu awọn itara ti o nilo nọmba kan pato ti awọn nkan lati fa jade.
Iyatọ ninu dataset
Ti itọsi naa ko ba ni awọn alaye miiran, DALL-E ti ṣe akiyesi lati ṣe afihan funfun tabi eniyan Oorun ati awọn agbegbe. Iyatọ oniduro yii waye nitori ọpọlọpọ awọn aworan ti aarin-Oorun ninu dataset.
Awoṣe naa tun ti ṣe akiyesi lati tẹle awọn aiṣedeede abo. Fun apẹẹrẹ, titẹ ni kiakia “olutọju ọkọ ofurufu” pupọ julọ n ṣe ipilẹṣẹ awọn aworan ti awọn iranṣẹ baalu.
Kini Google Imagen AI?
Google ká Aworan AI jẹ awoṣe ti o ni ero lati ṣẹda awọn aworan fọtoyiya lati ọrọ titẹ sii. Iru si DALL-E, awoṣe naa tun nlo awọn awoṣe ede iyipada lati loye ọrọ ati dale lori lilo awọn awoṣe itankale lati ṣẹda awọn aworan didara.
Lẹgbẹẹ Imagen, Google tun ti ṣe idasilẹ ipilẹ kan fun awọn awoṣe ọrọ-si-aworan ti a pe ni DrawBench. Lilo DrawBench, wọn ni anfani lati ṣe akiyesi pe awọn olutọpa eniyan fẹran iṣelọpọ Imagen ju awọn awoṣe miiran pẹlu DALL-E 2.
Bawo ni O Ṣe Nṣiṣẹ?
Iru si DALL-E, Imagen ni akọkọ ṣe iyipada itọsi olumulo sinu ọrọ ifisinu nipasẹ koodu didi ọrọ tio tutunini.
Imagen nlo awoṣe itankale eyiti o kọ ẹkọ bi o ṣe le yi ilana ariwo pada si awọn aworan. Ipilẹṣẹ akọkọ ti awọn aworan wọnyi jẹ ipinnu kekere ati pe nigbamii kọja nipasẹ awoṣe miiran ti a mọ si awoṣe itagbangba iwọn-giga lati mu ipinnu aworan ikẹhin pọ si. Awoṣe tan kaakiri akọkọ ṣe agbejade aworan piksẹli 64 × 64 ati pe nigbamii ti fẹ soke si aworan 1024 × 1024 ti o ga-giga.
Da lori iwadii ẹgbẹ Imagen, awọn awoṣe ede ti o tutunini nla ti a ṣe ikẹkọ lori data ọrọ nikan tun jẹ awọn koodu koodu ti o munadoko gaan fun iran ọrọ-si-aworan.
Iwadi na tun ṣafihan imọran ti iloro ti o ni agbara. Ọna yii ngbanilaaye awọn aworan lati han diẹ sii ni fọtoyiya nipasẹ jijẹ awọn iwuwo itoni nigbati o ba ṣẹda aworan naa.
Išẹ ti DALLE 2 vs Imagen
Awọn abajade alakoko lati ipilẹ ala Google fihan pe awọn oludahun eniyan fẹran awọn aworan ti a ṣe nipasẹ Imagen lori DALL-E 2 ati awọn awoṣe ọrọ-si-aworan miiran gẹgẹbi Itankale Latent ati VQGAN+CLIP.
Ijade ti o nbọ lati ọdọ ẹgbẹ Imagen ti tun fihan pe awoṣe wọn ṣe dara julọ ni ọrọ sipeli, ailera ti a mọ ti awoṣe DALL-E 2.
Sibẹsibẹ, niwọn igba ti Google ko tii tu awoṣe naa silẹ si gbogbo eniyan, o tun wa lati rii bii awọn ipilẹ Google ṣe peye.
ipari
Dide ti awọn awoṣe ọrọ-si-aworan fọtorealistic jẹ ariyanjiyan nitori awọn awoṣe wọnyi ti pọn fun lilo aiṣedeede.
Imọ-ẹrọ le ja si ṣiṣẹda akoonu ti o fojuhan tabi bi ohun elo fun alaye. Awọn oniwadi lati Google mejeeji ati OpenAI mọ eyi, eyiti o jẹ apakan idi ti awọn imọ-ẹrọ wọnyi ko tun wa si gbogbo eniyan.
Awọn awoṣe ọrọ-si-aworan tun ni awọn ilolu ọrọ-aje pataki. Njẹ awọn oojọ bii awọn awoṣe, awọn oluyaworan, ati awọn oṣere yoo ni ipa ti awọn awoṣe bii DALL-E ba di ojulowo?
Ni akoko, awọn awoṣe wọnyi tun ni awọn idiwọn. Dimu eyikeyi aworan ti ipilẹṣẹ AI lati ṣe ayẹwo yoo ṣafihan awọn ailagbara rẹ. Pẹlu mejeeji OpenAI ati Google ti njijadu fun awọn awoṣe ti o munadoko julọ, o le jẹ ọrọ ti akoko ṣaaju iṣelọpọ pipe ni otitọ: aworan ti ko ṣe iyatọ si ohun gidi.
Kini o ro pe yoo ṣẹlẹ nigbati imọ-ẹrọ ba lọ jinna?
Fi a Reply