F'dawn l-aħħar snin, mudelli ta' tagħlim profond saru aktar effettivi biex jifhmu l-lingwa umana.
Aħseb fi proġetti bħal GPT-3, li issa huwa kapaċi joħloq artikoli u websajts sħaħ. GitHub introduċa dan l-aħħar Kopilotu GitHub, servizz li jipprovdi snippets sħaħ tal-kodiċi billi sempliċement jiddeskrivi t-tip ta’ kodiċi li għandek bżonn.
Riċerkaturi f'OpenAI, Facebook, u Google ilhom jaħdmu fuq modi kif jużaw it-tagħlim fil-fond biex jimmaniġġjaw kompitu ieħor: l-immaġini ta 'titoli. Bl-użu ta 'sett ta' dejta kbir b'miljuni ta 'daħliet, ħarġu b'xi wħud sorprendenti riżultati.
Dan l-aħħar, dawn ir-riċerkaturi ppruvaw iwettqu l-kompitu oppost: joħolqu immaġini minn caption. Issa huwa possibbli li tinħoloq immaġni kompletament ġdida minn deskrizzjoni?
Din il-gwida se tesplora tnejn mill-aktar mudelli avvanzati minn test għal immaġni: DALL-E 2 ta' OpenAI u Imagen AI ta' Google. Kull wieħed minn dawn il-proġetti introduċa metodi innovattivi li jistgħu jbiddlu s-soċjetà kif nafuha.
Imma l-ewwel, ejja nifhmu x'nifhmu bi ġenerazzjoni minn test għal immaġni.
X'inhi l-ġenerazzjoni minn test għal immaġni?
Mudelli minn test għal immaġni jippermettu lill-kompjuters joħolqu immaġini ġodda u uniċi bbażati fuq prompts. In-nies issa jistgħu jipprovdu deskrizzjoni tat-test ta 'immaġni li jridu jipproduċu, u l-mudell jipprova joħloq viżwali li taqbel ma' dik id-deskrizzjoni kemm jista 'jkun.
Mudelli ta’ tagħlim bil-magni użaw l-użu ta’ settijiet ta’ dejta kbar li fihom pari ta’ immaġni-caption biex itejbu aktar il-prestazzjoni.
Ħafna minn test għal immaġni mudelli jużaw mudell tal-lingwa transformer biex tinterpreta prompts. Dan it-tip ta 'mudell huwa a newrali netwerk li jipprova jitgħallem il-kuntest u t-tifsira semantika tal-lingwa naturali.
Sussegwentement, mudelli ġenerattivi bħal mudelli tad-diffużjoni u netwerks avversarji ġenerattivi huma użati għas-sinteżi tal-immaġni.
X'inhu DALLE 2?
DALL-E2 huwa mudell tal-kompjuter minn OpenAI li ġie rilaxxat f'April 2022. Il-mudell ġie mħarreġ fuq database ta 'miljuni ta' stampi ttikkettjati biex jassoċja kliem u frażijiet ma 'immaġini.
L-utenti jistgħu jittajpja frażi sempliċi, bħal "qattus li jiekol lasagna", u DALL-E 2 se jiġġenera l-interpretazzjoni tiegħu stess ta 'dak li l-frażi qed tipprova tiddeskrivi.
Minbarra li toħloq immaġini mill-bidu, DALL-E 2 jista' wkoll jeditja immaġini eżistenti. Fl-eżempju hawn taħt, DALL-E kien kapaċi jiġġenera immaġni modifikata ta 'kamra b'sufan miżjud.
DALL-E 2 huwa biss wieħed mill-ħafna proġetti simili li OpenAI ħarġet fl-aħħar ftit snin. Il-GPT-3 ta 'OpenAI sar ta' aħbarijiet meta deher li jiġġenera test ta 'stili differenti.
Bħalissa, DALL-E 2 għadu fl-ittestjar beta. Utenti interessati jistgħu jiffirmaw għal tagħhom lista ta 'stennija u stenna għall-aċċess.
Kif taħdem?
Filwaqt li r-riżultati ta 'DALL-E 2 huma impressjonanti, inti tista' tistaqsi kif jaħdem kollox.
DALL-E 2 huwa eżempju ta' implimentazzjoni multimodali tal-proġett GPT-3 ta' OpenAI.
L-ewwel, il-pront tat-test tal-utent jitqiegħed f'kodifikatur tat-test li jimmappa l-pront għal spazju ta 'rappreżentazzjoni. DALL-E 2 juża mudell OpenAI ieħor imsejjaħ CLIP (Contrastive Language-Image Pre-Training) biex jikseb informazzjoni semantika minn lingwa naturali.
Sussegwentement, mudell magħruf bħala l- qabel immappja l-kodifikazzjoni tat-test f'kodifikazzjoni tal-immaġni. Din il-kodifikazzjoni tal-immaġni għandha taqbad l-informazzjoni semantika misjuba fil-pass tal-kodifikazzjoni tat-test.
Biex toħloq l-immaġni attwali, DALL-E 2 juża decoder tal-immaġni biex jiġġenera viżwali bl-użu ta 'informazzjoni semantika u dettalji tal-kodifikazzjoni tal-immaġni. OpenAI juża verżjoni modifikata tal- IL-GWIDA mudell biex iwettaq ġenerazzjoni ta 'immaġni. GLIDE tiddependi fuq a mudell tad-diffużjoni biex toħloq immaġini.
Iż-żieda ta 'GLIDE mal-mudell DALL-E 2 ippermettiet output aktar fotorealistiku. Peress li l-mudell GLIDE huwa stokastiku jew determinat b'mod każwali, il-mudell DALL-E 2 jista 'faċilment joħloq varjazzjonijiet billi jħaddem il-mudell għal darb'oħra.
Limitazzjonijiet
Minkejja r-riżultati impressjonanti tal-mudell DALL-E 2, xorta jiffaċċja xi limitazzjonijiet.
Test tal-ortografija
Prompts li jippruvaw jagħmlu DALL-E 2 jiġġeneraw test jiżvelaw li għandu diffikultà biex jikteb il-kliem. L-esperti jassumu li dan jista’ jkun minħabba li l-informazzjoni tal-ortografija mhix parti mill- dataset tat-taħriġ.
Raġunar Kompożizzjoni
Ir-riċerkaturi josservaw li DALL-E 2 għad għandu xi diffikultà bir-raġunament tal-kompożizzjoni. Fi kliem sempliċi, il-mudell jista’ jifhem aspetti individwali ta’ immaġni filwaqt li xorta jkollu problemi biex jifhem ir-relazzjonijiet bejn dawn l-aspetti.
Pereżempju, jekk jingħata l-pront "kubu aħmar fuq kubu blu", DALL-E jiġġenera kubu blu u kubu aħmar b'mod preċiż iżda jonqos milli jpoġġihom b'mod korrett. Il-mudell ġie osservat ukoll li għandu diffikultà bi prompts li jeħtieġu numru speċifiku ta 'oġġetti biex jinġibdu 'l barra.
Preġudizzju fis-sett tad-dejta
Jekk il-pront ma fih l-ebda dettalji oħra, DALL-E ġie osservat li juri nies u ambjenti bojod jew tal-Punent. Dan il-preġudizzju rappreżentattiv iseħħ minħabba l-abbundanza ta 'immaġini iċċentrati fil-Punent fis-sett tad-dejta.
Il-mudell ġie osservat ukoll li jsegwi sterjotipi tas-sessi. Per eżempju, ittajpjar fil-pront "flight attendant" l-aktar jiġġenera immaġini ta 'nisa attendenti tat-titjira.
X'inhu Google Imagen AI?
Google Imagen AI huwa mudell li jimmira li joħloq immaġini fotorealistiċi mit-test input. Simili għal DALL-E, il-mudell juża wkoll mudelli tal-lingwa tat-transformer biex jifhem it-test u jiddependi fuq l-użu ta 'mudelli ta' diffużjoni biex joħolqu immaġini ta 'kwalità għolja.
Flimkien ma' Imagen, Google ħarġet ukoll punt ta' referenza għal mudelli minn test għal immaġni msejħa DrawBench. Bl-użu ta 'DrawBench, setgħu josservaw li r-raters umani ppreferew l-output ta' Imagen fuq mudelli oħra inkluż DALL-E 2.
Kif taħdem?
Simili għal DALL-E, Imagen l-ewwel tikkonverti l-pront tal-utent f'inkorporazzjoni ta 'test permezz ta' encoder tat-test iffriżat.
Imagen juża mudell ta' diffużjoni li jitgħallem kif jikkonverti mudell ta' storbju f'immaġini. L-output inizjali ta 'dawn l-immaġini huma riżoluzzjoni baxxa u aktar tard huma mgħoddija minn mudell ieħor magħruf bħala mudell ta' diffużjoni super-riżoluzzjoni biex tiżdied ir-riżoluzzjoni tal-immaġni finali. L-ewwel mudell ta 'diffużjoni joħroġ immaġni ta' 64 × 64 pixel u aktar tard jiġi minfuħ għal immaġni ta '1024 × 1024 b'riżoluzzjoni għolja.
Ibbażat fuq ir-riċerka tat-tim Imagen, mudelli kbar ta’ lingwa ffriżata mħarrġa biss fuq dejta tat-test għadhom kodifikaturi tat-test effettivi ħafna għall-ġenerazzjoni minn test għal immaġni.
L-istudju jintroduċi wkoll il-kunċett ta' thresholding dinamiku. Dan il-metodu jippermetti li l-immaġini jidhru aktar fotorealistiċi billi jżidu l-piżijiet ta 'gwida meta tiġġenera l-immaġni.
Prestazzjoni ta' DALLE 2 vs Imagen
Riżultati preliminari mill-benchmark ta' Google juru li dawk li wieġbu umani jippreferu immaġini ġġenerati minn Imagen fuq DALL-E 2 u mudelli oħra minn test għal immaġini bħal Latent Diffusion u VQGAN+CLIP.
L-output li ġej mit-tim Imagen wera wkoll li l-mudell tagħhom jaħdem aħjar fl-ortografija tat-test, dgħjufija magħrufa tal-mudell DALL-E 2.
Madankollu, peress li Google għadha ma ħarġetx il-mudell lill-pubbliku, għad irid jara kemm huma preċiżi l-benchmarks ta 'Google.
konklużjoni
Iż-żieda ta 'mudelli fotorealistiċi minn test għal immaġni hija kontroversjali minħabba li dawn il-mudelli huma misjura għal użu mhux etiku.
It-teknoloġija tista' twassal għall-ħolqien ta' kontenut espliċitu jew bħala għodda għad-diżinformazzjoni. Riċerkaturi kemm minn Google kif ukoll minn OpenAI huma konxji minn dan, u huwa parzjalment għaliex dawn it-teknoloġiji għadhom mhumiex aċċessibbli għal kulħadd.
Mudelli minn test għal immaġni għandhom ukoll implikazzjonijiet ekonomiċi sinifikanti. Professjonijiet bħal mudelli, fotografi, u artisti se jiġu affettwati jekk mudelli bħal DALL-E jsiru mainstream?
Bħalissa, dawn il-mudelli għad għandhom limitazzjonijiet. Jekk iżżomm kwalunkwe immaġni ġġenerata mill-AI għall-iskrutinju, tiżvela l-imperfezzjonijiet tagħha. Kemm l-OpenAI kif ukoll il-Google jikkompetu għall-aktar mudelli effettivi, tista 'tkun kwistjoni ta' żmien qabel ma jiġi ġġenerat output tassew perfett: immaġni li ma tistax tiġi distinta mill-ħaġa reali.
X'taħseb li se jiġri meta t-teknoloġija tmur daqshekk 'il bogħod?
Ħalli Irrispondi