Table of Contents[Ferstopje][Toanje]
De lêste jierren binne modellen foar djippe learen effektiver wurden foar it begripen fan minsklike taal.
Tink oan projekten lykas GPT-3, dy't no hiele artikels en websiden meitsje kinne. GitHub hat koartlyn yntrodusearre GitHub Copilot, in tsjinst dy't hiele koade snippets leveret troch gewoan it type koade te beskriuwen dat jo nedich binne.
Undersikers fan OpenAI, Facebook en Google hawwe wurke oan manieren om djip learen te brûken om in oare taak te behanneljen: ôfbyldings ûndertiteling. Troch in grutte dataset mei miljoenen ynstjoerings te brûken, binne se wat betocht ferrassend resultaten.
De lêste tiid hawwe dizze ûndersikers besocht de tsjinoerstelde taak út te fieren: ôfbyldings meitsje fan in ûnderskrift. Is it no mooglik om út in beskriuwing in folslein nij byld te meitsjen?
Dizze hantlieding sil twa fan 'e meast avansearre tekst-nei-ôfbyldingsmodellen ûndersykje: OpenAI's DALL-E 2 en Google's Imagen AI. Elk fan dizze projekten hat baanbrekkende metoaden yntrodusearre dy't de maatskippij kinne feroarje sa't wy it kenne.
Mar lit ús earst begripe wat wy bedoele mei generaasje fan tekst-nei-ôfbylding.
Wat is tekst-nei-ôfbylding generaasje?
Tekst-nei-ôfbylding modellen tastean kompjûters te meitsjen nije en unike bylden basearre op prompts. Minsken kinne no in tekstbeskriuwing leverje fan in byld dat se produsearje wolle, en it model sil besykje in fisuele te meitsjen dy't sa goed mooglik oerienkomt mei dy beskriuwing.
Masine-learmodellen hawwe gebrûk makke fan it gebrûk fan grutte datasets dy't byld-byskriftpearen befetsje om prestaasjes fierder te ferbetterjen.
De measte tekst-nei-ôfbylding modellen brûke in transformatortaalmodel oanfragen ynterpretearje. Dit soarte fan model is in neuronale netwurk dat besiket de kontekst en semantyske betsjutting fan natuerlike taal te learen.
Folgjende, generative modellen lykas diffusion modellen en generative adversarial netwurken wurde brûkt foar byld synteze.
Wat is DALLE 2?
DALL-E2 is in kompjûtermodel fan OpenAI dat waard útbrocht yn april 2022. It model waard oplaat op in databank fan miljoenen labele ôfbyldings te assosjearjen wurden en útdrukkings oan bylden.
Brûkers kinne in ienfâldige sin typearje, lykas "in kat dy't lasagna yt", en DALL-E 2 sil syn eigen ynterpretaasje generearje fan wat de sin besiket te beskriuwen.
Neist it meitsjen fan ôfbyldings fanôf it begjin, kin DALL-E 2 ek besteande ôfbyldings bewurkje. Yn it foarbyld hjirûnder koe DALL-E in wizige ôfbylding generearje fan in keamer mei in tafoege bank.
DALL-E 2 is mar ien fan in protte ferlykbere projekten OpenAI hat yn 'e ôfrûne jierren frijlitten. OpenAI's GPT-3 waard nijswurdich doe't it like tekst te generearjen fan ferskate stilen.
Op it stuit is DALL-E 2 noch yn beta-testen. Ynteressearre brûkers kinne oanmelde foar harren wachtlist en wachtsje op tagong.
Hoe wurket it?
Wylst de resultaten fan DALL-E 2 yndrukwekkend binne, freegje jo jo miskien ôf hoe't it allegear wurket.
DALL-E 2 is in foarbyld fan in multimodale ymplemintaasje fan OpenAI's GPT-3-projekt.
Earst wurdt de tekstprompt fan de brûker pleatst yn in tekstkodearder dy't de prompt yn kaart bringt nei in represintaasjeromte. DALL-E 2 brûkt in oar OpenAI-model neamd CLIP (Contrastive Language-Image Pre-Training) om semantyske ynformaasje te krijen fan natuerlike taal.
Folgjende, in model bekend as de foarôfgeande mapt de tekstkodearring yn in byldkodearring. Dizze ôfbyldingskodearring moat de semantyske ynformaasje fêstlizze dy't fûn is yn 'e stap fan tekstkodearring.
Foar it meitsjen fan de eigentlike ôfbylding, brûkt DALL-E 2 in ôfbylding decoder foar in generearje in fisuele mei help fan semantyske ynformaasje en ôfbylding kodearring details. OpenAI brûkt in wizige ferzje fan de GLIDE model om ôfbyldingsgeneraasje út te fieren. GLIDE fertrout op in diffusion model ôfbyldings te meitsjen.
De tafoeging fan GLIDE oan it DALL-E 2-model makke mear fotorealistyske útfier mooglik. Sûnt it GLIDE-model stogastysk of willekeurich bepaald is, kin it DALL-E 2-model maklik fariaasjes meitsje troch it model hieltyd wer út te fieren.
beheinings
Nettsjinsteande de yndrukwekkende resultaten fan it DALL-E 2-model, hat it noch wat beheiningen.
Stavering Tekst
Prompts dy't besykje te meitsjen DALL-E 2 generearje tekst docht bliken dat it hat muoite staverjen wurden. Saakkundigen geane der fan út dat dit kin wêze omdat stavering ynformaasje is gjin diel fan 'e training dataset.
Komposysje redenearring
Undersikers observearje dat DALL-E 2 noch wat muoite hat mei komposysjonele redenearring. Simpelwei kin it model yndividuele aspekten fan in ôfbylding begripe, wylst it noch altyd problemen hat om de relaasjes tusken dizze aspekten út te finen.
Bygelyks, as jûn de prompt "reade kubus boppe op in blauwe kubus", sil DALL-E generearje in blauwe kubus en in reade kubus sekuer, mar mislearje se goed te pleatsen. It model is ek waarnommen om swierrichheden te hawwen mei prompts dy't fereaskje dat in spesifyk oantal objekten útlutsen wurde.
Bias yn 'e dataset
As de prompt gjin oare details befettet, is DALL-E observearre om wite of westerske minsken en omjouwings te ferbyldzjen. Dizze represintative bias komt foar troch de oerfloed fan westersk-sintraal bylden yn 'e dataset.
It model is ek waarnommen om geslachtstereotypen te folgjen. Bygelyks, it typen yn 'e prompt "flechtbestjoerder" genereart meast bylden fan froulike stewardess.
Wat is Google Imagen AI?
Google's Ofbylding AI is in model dat as doel hat fotorealistyske ôfbyldings te meitsjen fan ynfiertekst. Fergelykber mei DALL-E brûkt it model ek transformatortaalmodellen om de tekst te begripen en fertrout op it gebrûk fan diffusiemodellen om ôfbyldings fan hege kwaliteit te meitsjen.
Njonken Imagen hat Google ek in benchmark frijlitten foar tekst-nei-ôfbylding modellen neamd DrawBench. Mei DrawBench koene se observearje dat minsklike beoardielers de Imagen-útfier foarkar boppe oare modellen, ynklusyf DALL-E 2.
Hoe wurket it?
Fergelykber mei DALL-E konvertearret Imagen earst de brûkerprompt yn in tekstynbêding fia in beferzen tekstkodearder.
Imagen brûkt in diffusiemodel dat leart hoe't jo in patroan fan lûd omsette yn ôfbyldings. De earste útfier fan dizze ôfbyldings binne lege resolúsje en wurde letter trochjûn troch in oar model bekend as in super-resolúsje diffusion model te fergrutsjen de resolúsje fan de definitive ôfbylding. It earste diffusionmodel jout in ôfbylding fan 64 × 64 piksels út en wurdt letter opblaasd nei in ôfbylding mei hege resolúsje 1024 × 1024.
Op grûn fan it ûndersyk fan it Imagen-team binne grutte beferzen taalmodellen dy't allinich op tekstgegevens trainearre binne noch altyd heul effektive tekstkodearrings foar tekst-nei-ôfbylding generaasje.
De stúdzje yntrodusearret ek it konsept fan dynamyske drompeling. Dizze metoade lit ôfbyldings mear fotorealistysk ferskine troch it fergrutsjen fan begeliedingsgewichten by it generearjen fan de ôfbylding.
Prestaasje fan DALLE 2 vs Imagen
Foarriedige resultaten fan Google's benchmark litte sjen dat minsklike respondinten leaver ôfbyldings genereare troch Imagen boppe DALL-E 2 en oare tekst-nei-ôfbylding modellen lykas Latent Diffusion en VQGAN + CLIP.
Utfier fan it Imagen-team hat ek sjen litten dat har model better presteart by it stavearjen fan tekst, in bekende swakte fan it DALL-E 2-model.
Om't Google it model lykwols noch net oan it publyk hat frijlitten, bliuwt it noch te sjen hoe krekt de benchmarks fan Google binne.
Konklúzje
De opkomst fan fotorealistyske tekst-nei-ôfbylding modellen is kontroversjeel, om't dizze modellen ryp binne foar unethysk gebrûk.
De technology kin liede ta it oanmeitsjen fan eksplisite ynhâld of as in ark foar disinformaasje. Ûndersikers fan sawol Google en OpenAI binne bewust fan dit, dat is foar in part de reden dat dizze technologyen binne noch net tagonklik foar elkenien.
Tekst-nei-ôfbylding modellen hawwe ek wichtige ekonomyske gefolgen. Sille beroppen lykas modellen, fotografen en artysten beynfloede wurde as modellen lykas DALL-E mainstream wurde?
Op it stuit hawwe dizze modellen noch beheiningen. It hâlden fan elke AI-genereare ôfbylding om te kontrolearjen sil syn ûnfolsleinheden iepenbierje. Mei sawol OpenAI as Google konkurrearje foar de meast effektive modellen, kin it in kwestje fan tiid wêze foardat in wirklik perfekte útfier wurdt generearre: in byld dat net te ûnderskieden is fan it echte ding.
Wat tinke jo dat der sil barre as technology sa fier giet?
Leave a Reply