DALL-E 2 vs Imagen - Stampi u Arti Ġenerati mill-AI

Werrej[Aħbi][Uri]

X'inhi l-ġenerazzjoni minn test għal immaġni?
X'inhu DALLE 2?+-
- Kif taħdem?
- Limitazzjonijiet
X'inhu Google Imagen AI?+-
- Kif taħdem?
Prestazzjoni ta' DALLE 2 vs Imagen
konklużjoni

F'dawn l-aħħar snin, mudelli ta' tagħlim profond saru aktar effettivi biex jifhmu l-lingwa umana.

Aħseb fi proġetti bħal GPT-3, li issa huwa kapaċi joħloq artikoli u websajts sħaħ. GitHub introduċa dan l-aħħar Kopilotu GitHub, servizz li jipprovdi snippets sħaħ tal-kodiċi billi sempliċement jiddeskrivi t-tip ta’ kodiċi li għandek bżonn.

Riċerkaturi f'OpenAI, Facebook, u Google ilhom jaħdmu fuq modi kif jużaw it-tagħlim fil-fond biex jimmaniġġjaw kompitu ieħor: l-immaġini ta 'titoli. Bl-użu ta 'sett ta' dejta kbir b'miljuni ta 'daħliet, ħarġu b'xi wħud sorprendenti riżultati.

Dan l-aħħar, dawn ir-riċerkaturi ppruvaw iwettqu l-kompitu oppost: joħolqu immaġini minn caption. Issa huwa possibbli li tinħoloq immaġni kompletament ġdida minn deskrizzjoni?

Din il-gwida se tesplora tnejn mill-aktar mudelli avvanzati minn test għal immaġni: DALL-E 2 ta' OpenAI u Imagen AI ta' Google. Kull wieħed minn dawn il-proġetti introduċa metodi innovattivi li jistgħu jbiddlu s-soċjetà kif nafuha.

Imma l-ewwel, ejja nifhmu x'nifhmu bi ġenerazzjoni minn test għal immaġni.

X'inhi l-ġenerazzjoni minn test għal immaġni?

Mudelli minn test għal immaġni jippermettu lill-kompjuters joħolqu immaġini ġodda u uniċi bbażati fuq prompts. In-nies issa jistgħu jipprovdu deskrizzjoni tat-test ta 'immaġni li jridu jipproduċu, u l-mudell jipprova joħloq viżwali li taqbel ma' dik id-deskrizzjoni kemm jista 'jkun.

Mudelli ta’ tagħlim bil-magni użaw l-użu ta’ settijiet ta’ dejta kbar li fihom pari ta’ immaġni-caption biex itejbu aktar il-prestazzjoni.

Ħafna minn test għal immaġni mudelli jużaw mudell tal-lingwa transformer biex tinterpreta prompts. Dan it-tip ta 'mudell huwa a newrali netwerk li jipprova jitgħallem il-kuntest u t-tifsira semantika tal-lingwa naturali.

Sussegwentement, mudelli ġenerattivi bħal mudelli tad-diffużjoni u netwerks avversarji ġenerattivi huma użati għas-sinteżi tal-immaġni.

X'inhu DALLE 2?

DALL-E 2 joħloq stampi u arti realistiċi

DALL-E2 huwa mudell tal-kompjuter minn OpenAI li ġie rilaxxat f'April 2022. Il-mudell ġie mħarreġ fuq database ta 'miljuni ta' stampi ttikkettjati biex jassoċja kliem u frażijiet ma 'immaġini.

L-utenti jistgħu jittajpja frażi sempliċi, bħal "qattus li jiekol lasagna", u DALL-E 2 se jiġġenera l-interpretazzjoni tiegħu stess ta 'dak li l-frażi qed tipprova tiddeskrivi.

Minbarra li toħloq immaġini mill-bidu, DALL-E 2 jista' wkoll jeditja immaġini eżistenti. Fl-eżempju hawn taħt, DALL-E kien kapaċi jiġġenera immaġni modifikata ta 'kamra b'sufan miżjud.

DALL-E 2 jista' jeditja immaġini eżistenti

DALL-E 2 huwa biss wieħed mill-ħafna proġetti simili li OpenAI ħarġet fl-aħħar ftit snin. Il-GPT-3 ta 'OpenAI sar ta' aħbarijiet meta deher li jiġġenera test ta 'stili differenti.

Bħalissa, DALL-E 2 għadu fl-ittestjar beta. Utenti interessati jistgħu jiffirmaw għal tagħhom lista ta 'stennija u stenna għall-aċċess.

Kif taħdem?

Filwaqt li r-riżultati ta 'DALL-E 2 huma impressjonanti, inti tista' tistaqsi kif jaħdem kollox.

DALL-E 2 huwa eżempju ta' implimentazzjoni multimodali tal-proġett GPT-3 ta' OpenAI.

ħarsa ġenerali lejn l-arkitettura DALL-E 2

L-ewwel, il-pront tat-test tal-utent jitqiegħed f'kodifikatur tat-test li jimmappa l-pront għal spazju ta 'rappreżentazzjoni. DALL-E 2 juża mudell OpenAI ieħor imsejjaħ CLIP (Contrastive Language-Image Pre-Training) biex jikseb informazzjoni semantika minn lingwa naturali.

Sussegwentement, mudell magħruf bħala l- qabel immappja l-kodifikazzjoni tat-test f'kodifikazzjoni tal-immaġni. Din il-kodifikazzjoni tal-immaġni għandha taqbad l-informazzjoni semantika misjuba fil-pass tal-kodifikazzjoni tat-test.

Biex toħloq l-immaġni attwali, DALL-E 2 juża decoder tal-immaġni biex jiġġenera viżwali bl-użu ta 'informazzjoni semantika u dettalji tal-kodifikazzjoni tal-immaġni. OpenAI juża verżjoni modifikata tal- IL-GWIDA mudell biex iwettaq ġenerazzjoni ta 'immaġni. GLIDE tiddependi fuq a mudell tad-diffużjoni biex toħloq immaġini.

Iż-żieda ta 'GLIDE mal-mudell DALL-E 2 ippermettiet output aktar fotorealistiku. Peress li l-mudell GLIDE huwa stokastiku jew determinat b'mod każwali, il-mudell DALL-E 2 jista 'faċilment joħloq varjazzjonijiet billi jħaddem il-mudell għal darb'oħra.

Limitazzjonijiet

Minkejja r-riżultati impressjonanti tal-mudell DALL-E 2, xorta jiffaċċja xi limitazzjonijiet.

Test tal-ortografija

mudell iħammeġ l-ortografija tal-kliem fit-tabelli

Prompts li jippruvaw jagħmlu DALL-E 2 jiġġeneraw test jiżvelaw li għandu diffikultà biex jikteb il-kliem. L-esperti jassumu li dan jista’ jkun minħabba li l-informazzjoni tal-ortografija mhix parti mill- dataset tat-taħriġ.

Raġunar Kompożizzjoni

mudell tissielet biex ipoġġi oġġetti fl-ispazju

Ir-riċerkaturi josservaw li DALL-E 2 għad għandu xi diffikultà bir-raġunament tal-kompożizzjoni. Fi kliem sempliċi, il-mudell jista’ jifhem aspetti individwali ta’ immaġni filwaqt li xorta jkollu problemi biex jifhem ir-relazzjonijiet bejn dawn l-aspetti.

Pereżempju, jekk jingħata l-pront "kubu aħmar fuq kubu blu", DALL-E jiġġenera kubu blu u kubu aħmar b'mod preċiż iżda jonqos milli jpoġġihom b'mod korrett. Il-mudell ġie osservat ukoll li għandu diffikultà bi prompts li jeħtieġu numru speċifiku ta 'oġġetti biex jinġibdu 'l barra.

Preġudizzju fis-sett tad-dejta

Jekk il-pront ma fih l-ebda dettalji oħra, DALL-E ġie osservat li juri nies u ambjenti bojod jew tal-Punent. Dan il-preġudizzju rappreżentattiv iseħħ minħabba l-abbundanza ta 'immaġini iċċentrati fil-Punent fis-sett tad-dejta.

DALL-E 2 għandu preġudizzji dwar is-sess

Il-mudell ġie osservat ukoll li jsegwi sterjotipi tas-sessi. Per eżempju, ittajpjar fil-pront "flight attendant" l-aktar jiġġenera immaġini ta 'nisa attendenti tat-titjira.

X'inhu Google Imagen AI?

DALL-E 2 vs Imagen - Imagen huwa aħjar fl-ortografija u l-kompożizzjoni

Google Imagen AI huwa mudell li jimmira li joħloq immaġini fotorealistiċi mit-test input. Simili għal DALL-E, il-mudell juża wkoll mudelli tal-lingwa tat-transformer biex jifhem it-test u jiddependi fuq l-użu ta 'mudelli ta' diffużjoni biex joħolqu immaġini ta 'kwalità għolja.

Flimkien ma' Imagen, Google ħarġet ukoll punt ta' referenza għal mudelli minn test għal immaġni msejħa DrawBench. Bl-użu ta 'DrawBench, setgħu josservaw li r-raters umani ppreferew l-output ta' Imagen fuq mudelli oħra inkluż DALL-E 2.

Kif taħdem?

imagen juża mudell ta' diffużjoni biex jipproduċi xogħol b'riżoluzzjoni għolja

Simili għal DALL-E, Imagen l-ewwel tikkonverti l-pront tal-utent f'inkorporazzjoni ta 'test permezz ta' encoder tat-test iffriżat.

Imagen juża mudell ta' diffużjoni li jitgħallem kif jikkonverti mudell ta' storbju f'immaġini. L-output inizjali ta 'dawn l-immaġini huma riżoluzzjoni baxxa u aktar tard huma mgħoddija minn mudell ieħor magħruf bħala mudell ta' diffużjoni super-riżoluzzjoni biex tiżdied ir-riżoluzzjoni tal-immaġni finali. L-ewwel mudell ta 'diffużjoni joħroġ immaġni ta' 64 × 64 pixel u aktar tard jiġi minfuħ għal immaġni ta '1024 × 1024 b'riżoluzzjoni għolja.

Ibbażat fuq ir-riċerka tat-tim Imagen, mudelli kbar ta’ lingwa ffriżata mħarrġa biss fuq dejta tat-test għadhom kodifikaturi tat-test effettivi ħafna għall-ġenerazzjoni minn test għal immaġni.

L-istudju jintroduċi wkoll il-kunċett ta' thresholding dinamiku. Dan il-metodu jippermetti li l-immaġini jidhru aktar fotorealistiċi billi jżidu l-piżijiet ta 'gwida meta tiġġenera l-immaġni.

Prestazzjoni ta' DALLE 2 vs Imagen

Riżultati preliminari mill-benchmark ta' Google juru li dawk li wieġbu umani jippreferu immaġini ġġenerati minn Imagen fuq DALL-E 2 u mudelli oħra minn test għal immaġini bħal Latent Diffusion u VQGAN+CLIP.

DALL-E 2 vs riżultati Imagen bl-użu ta 'DrawBench minn Google

L-output li ġej mit-tim Imagen wera wkoll li l-mudell tagħhom jaħdem aħjar fl-ortografija tat-test, dgħjufija magħrufa tal-mudell DALL-E 2.

Madankollu, peress li Google għadha ma ħarġetx il-mudell lill-pubbliku, għad irid jara kemm huma preċiżi l-benchmarks ta 'Google.

konklużjoni

Iż-żieda ta 'mudelli fotorealistiċi minn test għal immaġni hija kontroversjali minħabba li dawn il-mudelli huma misjura għal użu mhux etiku.

It-teknoloġija tista' twassal għall-ħolqien ta' kontenut espliċitu jew bħala għodda għad-diżinformazzjoni. Riċerkaturi kemm minn Google kif ukoll minn OpenAI huma konxji minn dan, u huwa parzjalment għaliex dawn it-teknoloġiji għadhom mhumiex aċċessibbli għal kulħadd.

Mudelli minn test għal immaġni għandhom ukoll implikazzjonijiet ekonomiċi sinifikanti. Professjonijiet bħal mudelli, fotografi, u artisti se jiġu affettwati jekk mudelli bħal DALL-E jsiru mainstream?

Bħalissa, dawn il-mudelli għad għandhom limitazzjonijiet. Jekk iżżomm kwalunkwe immaġni ġġenerata mill-AI għall-iskrutinju, tiżvela l-imperfezzjonijiet tagħha. Kemm l-OpenAI kif ukoll il-Google jikkompetu għall-aktar mudelli effettivi, tista 'tkun kwistjoni ta' żmien qabel ma jiġi ġġenerat output tassew perfett: immaġni li ma tistax tiġi distinta mill-ħaġa reali.

X'taħseb li se jiġri meta t-teknoloġija tmur daqshekk 'il bogħod?

DALL-E 2 vs Imagen – Stampi u Art Ġenerati mill-AI

X'inhi l-ġenerazzjoni minn test għal immaġni?

X'inhu DALLE 2?

Kif taħdem?

Limitazzjonijiet

X'inhu Google Imagen AI?

Kif taħdem?

Prestazzjoni ta' DALLE 2 vs Imagen

konklużjoni

dwar Deion Menor

Aktar Artikoli fuq HashDork:

Kif tnaqqas l-alluċinazzjonijiet fl-AI tiegħek

Colossyan vs Heygen

Dan Future Tech Newsletter Ma Terdax

DALL-E 2 vs Imagen – Stampi u Art Ġenerati mill-AI

X'inhi l-ġenerazzjoni minn test għal immaġni?

X'inhu DALLE 2?

Kif taħdem?

Limitazzjonijiet

X'inhu Google Imagen AI?

Kif taħdem?

Prestazzjoni ta' DALLE 2 vs Imagen

konklużjoni

dwar Deion Menor

Aktar Artikoli fuq HashDork:

Kif tnaqqas l-alluċinazzjonijiet fl-AI tiegħek

10 L-Aħjar Għodod tal-AI għall-Midja Soċjali

Colossyan vs Heygen

10 L-Aħjar Għodod Animated Video Maker AI

Interazzjonijiet Reader

Ħalli Irrispondi Ikkanċella risposta

Dan Future Tech Newsletter Ma Terdax