DALL-E 2 vs Imagen - Wêneyên AI-Çêkirî û Huner

Table of Contents[Veşartin][Rêdan]

Hilberîna nivîs-bi-image çi ye?
DALLE 2 çi ye?+- Ji
- Çawa kar dike?
- tengasîyên
Google Imagen AI çi ye?+- Ji
- Çawa kar dike?
Performansa DALLE 2 vs Imagen
Xelasî

Di salên dawî de, modelên hînbûna kûr di têgihîştina zimanê mirovan de bi bandortir bûne.

Projeyên mîna bifikirin Gpt-3, ku niha dikare bi tevahî gotar û malperan biafirîne. GitHub herî dawî destnîşan kir GitHub Copilot, karûbarek ku bi tenê bi danasîna celebê koda ku hûn hewce ne bi tevahî perçeyên kodê peyda dike.

Lekolînwanên li OpenAI, Facebook, û Google li ser awayên karanîna fêrbûna kûr dixebitin ku karekî din bikin: sernavkirina wêneyan. Bi karanîna danûstendinek mezin a bi mîlyonan navnîşan re, wan hinekan peyda kirin nişkevaşakir results.

Di van demên dawî de, van lêkolîneran hewl didin ku peywira berevajî bikin: afirandina wêneyan ji sernavê. Ma naha gengaz e ku meriv ji danasînê wêneyek bi tevahî nû biafirîne?

Ev rêber dê du modelên pêşkeftî yên nivîs-bi-image vekolîne: OpenAI's DALL-E 2 û Google's Imagen AI. Her yek ji van projeyan rêbazên bingehîn destnîşan kirine ku dibe ku civaka ku em pê dizanin biguherînin.

Lê pêşî, em fêm bikin ka mebesta me ji nifşa nivîs-bi-image çi ye.

Hilberîna nivîs-bi-image çi ye?

Modelên nivîs-bi-image destûrê dide komputeran ku li ser bingeha pêşniyaran wêneyên nû û bêhempa biafirînin. Mirov naha dikare raveyek nivîsê ya wêneyek ku ew dixwazin hilberînin peyda bikin, û model dê hewl bide ku dîmenek ku bi qasî ku gengaz bi wê danasînê re têkildar biafirîne.

Modelên fêrbûna makîneyê karanîna danehevên mezin ên ku cotên wêne-sernavê vedihewînin bi kar anîne da ku performansê bêtir çêtir bikin.

Piraniya nivîs-bi-image modelan modela zimanê veguherîner bikar tînin ji bo şîrovekirina pêşniyaran. Ev cure model a torê neural ku hewl dide ku çarçove û wateya wateya zimanê xwezayî fêr bibe.

Piştre, modelên hilberîner ên wekî modelên belavbûnê û torên dijber ên hilberîner ji bo senteza wêneyê têne bikar anîn.

DALLE 2 çi ye?

DALL-E 2 wêne û hunera rastîn diafirîne

DALL-E2 Modelek kompîturê ye ji hêla OpenAI ve ku di Nîsana 2022-an de hate derxistin. Model li ser databasek bi mîlyonan wêneyên bi etîketkirî hate perwerde kirin da ku peyv û hevokan bi wêneyan ve girêbide.

Bikarhêner dikarin hevokek hêsan binivîsin, wek "pisîkek lasagna dixwe", û DALL-E 2 dê şiroveya xwe ya ku hevok hewl dide rave bike çêbike.

Ji bilî afirandina wêneyan ji sifirê, DALL-E 2 dikare wêneyên heyî jî biguherîne. Di mînaka jêrîn de, DALL-E karîbû wêneyek guherbar a jûreyek bi nivînek lêzêdekirî çêbike.

DALL-E 2 dikare wêneyên heyî biguherîne

DALL-E 2 tenê yek ji gelek projeyên wekhev e ku OpenAI di van çend salên borî de derxistiye. GPT-3 ya OpenAI-ê dema ku xuya bû ku nivîsek bi şêwazên cihêreng çêdike bû hêjayî nûçeyê.

Heya niha, DALL-E 2 hîn jî di ceribandina betayê de ye. Bikarhênerên eleqedar dikarin xwe qeyd bikin lîsteya bendewariyê û li benda gihîştinê bisekinin.

Çawa kar dike?

Dema ku encamên DALL-E 2 balkêş in, dibe ku hûn meraq bikin ka ew hemî çawa dixebite.

DALL-E 2 mînakek pêkanîna multimodal a projeya GPT-3 ya OpenAI ye.

giştpirsiya mîmariya DALL-E 2

Pêşîn, tavilê nivîsa bikarhêner di şîfreyek nivîsê de tê danîn ku daxwaznameyê li cîhek nûnertiyê nexşe dike. DALL-E 2 modelek din a OpenAI-ê ya bi navê CLIP (Pê-perwerdekirina Ziman-Wêneya Berevajîkirî) bikar tîne da ku agahdariya semantîkî ji zimanê xwezayî bistîne.

Piştre, modelek ku wekî tê zanîn berî kodkirina nivîsê di kodkirina wêneyê de nexşe dike. Pêdivî ye ku ev şîfrekirina wêneyê agahdariya semantîkî ya ku di qonaxa şîfrekirina nivîsê de tê dîtin bigire.

Ji bo afirandina wêneya rastîn, DALL-E 2 dekoderek wêneyê bikar tîne da ku dîmenek bi karanîna agahdariya semantîk û hûrguliyên şîfrekirina wêneyê çêbike. OpenAI guhertoyek guhertî ya ya bikar tîne GLIDE modela ku hilberîna wêneyê pêk tîne. GLIDE xwe dispêre a modela belavbûnê ji bo afirandina wêneyan.

Zêdekirina GLIDE-ê li modela DALL-E 2 hilberana fotorealîst bêtir çalak kir. Ji ber ku modela GLIDE stokastîk e an bi rasthatinî hatî destnîşankirin, modela DALL-E 2 dikare bi hêsanî guhertoyan bi xebitandina modelê dîsa û dîsa biafirîne.

tengasîyên

Tevî encamên balkêş ên modela DALL-E 2, ew hîn jî bi hin sînoran re rû bi rû dimîne.

Nivîsar rastnivîsîn

model rastnivîsîna peyvan di nîşanan de tevlihev dike

Pêşniyarên ku hewl didin ku DALL-E 2 nivîsê biafirînin diyar dikin ku ew di rastnivîsandina peyvan de dijwar e. Pispor texmîn dikin ku ev dibe ku ji ber ku agahdariya rastnivîsê ne beşek ji wê be databasa perwerdehiyê.

Reasoning Pêkhatî

model bi cîhkirina tiştan di fezayê de têdikoşe

Lekolînwan dinihêrin ku DALL-E 2 hîn jî bi ramana pêkhatî re hin dijwariyek heye. Bi hêsanî, model dikare aliyên takekesî yên wêneyek fam bike di heman demê de ku hîn jî di fêhmkirina têkiliyên di navbera van aliyan de pirsgirêk heye.

Mînakî, heke talîmata "kuba sor li ser kubarek şîn" were dayîn, DALL-E dê kubarek şîn û kubarek sor bi duristî çêbike lê nekare wan rast bi cîh bike. Di heman demê de hate dîtin ku modêl bi şîretên ku hewce dike ku hejmarek taybetî ya tiştan were derxistin de dijwariyek heye.

Bias di databasê de

Ger di navberê de hûrguliyên din tune ne, DALL-E hatiye dîtin ku mirov û derdorên spî an rojavayî destnîşan dike. Ev neyartiya temsîlî ji ber pirbûna wêneyên rojavayî-navendî di danezanê de pêk tê.

DALL-E 2 xwedan ferqên zayendî ye

Di heman demê de modela ku stereotipên zayendî dişopîne jî hate dîtin. Mînakî, nivîsandina bilez "karmendê firîna balafirê" bi piranî wêneyên karmendên firîna jin çêdike.

Google Imagen AI çi ye?

DALL-E 2 vs Imagen - Wêne di rastnivîsîn û pêkhatinê de çêtir e

Google Imagen AI modelek e ku armanc dike ku ji nivîsa têketinê wêneyên fotorealîst biafirîne. Mîna DALL-E, model di heman demê de modelên zimanê veguherîner bikar tîne da ku nivîsê fam bike û xwe dispêre karanîna modelên belavbûnê ji bo afirandina wêneyên qalîteya bilind.

Li gel Imagen, Google ji bo modelên nivîs-bi-image pîvanek bi navê DrawBench jî derxistiye. Bi karanîna DrawBench, wan karîbû mêze bikin ku rêjeyên mirovan hilberîna Imagen li ser modelên din, tevî DALL-E 2, tercîh dikin.

Çawa kar dike?

imagen modelek belavbûnê bikar tîne da ku xebata çareseriya bilind hilberîne

Mîna DALL-E, Imagen pêşî bikarhênerê diguhezîne nivîsek ku bi şîfreyek nivîsê ya cemidî ve tê veguheztin.

Imagen modelek belavbûnê bikar tîne ku fêr dibe ka meriv çawa şêwazek deng li wêneyan vediguherîne. Hilberîna destpêkê ya van wêneyan rezîliya kêm in û paşê di modelek din de têne derbas kirin ku wekî modela belavbûna super-çareseriyê tê zanîn da ku çareseriya wêneya paşîn zêde bike. Yekem modela belavbûnê wêneyek 64 × 64 pixel derdixe û dûv re wêneyek 1024 × 1024 bi rezîliya bilind tê hilanîn.

Li ser bingeha lêkolîna tîmê Imagen, modelên mezin ên zimanê cemidî yên ku tenê li ser daneyên nivîsê hatine perwerde kirin hîn jî şîfrekerên nivîsê yên pir bi bandor in ji bo hilberîna nivîs-bi-wêne.

Di lêkolînê de her weha têgîna sînorên dînamîkî destnîşan dike. Ev rêbaz dihêle ku dema çêkirina wêneyê giraniya rêberiyê zêde bike, wêneyan bêtir fotorealîst xuya bikin.

Performansa DALLE 2 vs Imagen

Encamên pêşîn ên ji pîvana Google-ê destnîşan dikin ku bersivdêrên mirovî wêneyên ku ji hêla Imagen ve têne hilberandin ji DALL-E 2 û modelên din ên nivîs-bi-wêne yên wekî Latent Diffusion û VQGAN+CLIP tercîh dikin.

DALL-E 2 vs Encamên Imagen bi karanîna DrawBench ji Google

Hilbera ku ji tîmê Imagen tê di heman demê de destnîşan kir ku modela wan di rastnivîsa nivîsê de çêtir dike, qelsiyek naskirî ya modela DALL-E 2.

Lêbelê, ji ber ku Google hîn modela ji raya giştî re nekiriye, hîn jî tê dîtin ku pîvanên Google-ê çiqas rast in.

Xelasî

Zêdebûna modelên nivîs-bi-wêne fotorealîst nakokî ye ji ber ku ev model ji bo karanîna neexlaqî ne.

Teknolojî dibe ku bibe sedema afirandina naverokek eşkere an jî wekî amûrek ji bo dezenformasyonê. Lekolînwan hem ji Google û hem jî OpenAI ji vê yekê haydar in, ji ber vê yekê ev teknolojiyê hîn jî ji her kesî re ne gihîştî ye.

Modelên Nivîs-bi-Wêne jî xwedî bandorên aborî yên girîng in. Ger ku modelên wekî DALL-E serdest bibin dê pîşeyên wekî model, wênekêş û hunermend bandor bibin?

Di vê demê de, van modelan hîn jî sînor hene. Girtina her wêneyek ku ji hêla AI-ê ve hatî çêkirin ji bo lêkolînê dê kêmasiyên wê eşkere bike. Digel ku OpenAI û Google hem ji bo modelên herî bibandor pêşbaziyê dikin, dibe ku demek be ku bertekek bi rastî bêkêmasî were hilberandin: wêneyek ku ji tiştê rastîn nayê cûda kirin.

Ma hûn difikirin ku dê çi bibe gava ku teknolojî ew qas dûr biçe?

DALL-E 2 vs Imagen - Wêneyên AI-Herêkirî û Huner

Hilberîna nivîs-bi-image çi ye?

DALLE 2 çi ye?

Çawa kar dike?

tengasîyên

Google Imagen AI çi ye?

Çawa kar dike?

Performansa DALLE 2 vs Imagen

Xelasî

Ji dor Deion Menor

Gotarên Zêdetir li ser HashDork:

Meriv çawa di AI-ya xwe de Halusînasyonan kêm dike

Colossyan vs Heygen

Ev Nûçenameya Teknolojiya Pêşerojê Sê Nake

DALL-E 2 vs Imagen - Wêneyên AI-Herêkirî û Huner

Hilberîna nivîs-bi-image çi ye?

DALLE 2 çi ye?

Çawa kar dike?

tengasîyên

Google Imagen AI çi ye?

Çawa kar dike?

Performansa DALLE 2 vs Imagen

Xelasî

Ji dor Deion Menor

Gotarên Zêdetir li ser HashDork:

Meriv çawa di AI-ya xwe de Halusînasyonan kêm dike

10 Amûrên AI-ê yên çêtirîn ji bo Medya Civakî

Colossyan vs Heygen

10 Baştirîn Amûrên Çêkera Vîdyoyê Anîmated AI

Interaction Reader

Leave a Reply Cancel reply

Ev Nûçenameya Teknolojiya Pêşerojê Sê Nake