In onlangse jare het diepleermodelle meer effektief geword om menslike taal te verstaan.
Dink aan projekte soos GPT-3, wat nou hele artikels en webwerwe kan skep. GitHub het onlangs bekendgestel GitHub Copilot, 'n diens wat hele kodebrokkies verskaf deur bloot die tipe kode wat jy benodig te beskryf.
Navorsers by OpenAI, Facebook en Google het gewerk aan maniere om diep leer te gebruik om 'n ander taak te hanteer: onderskrifte van beelde. Deur 'n groot datastel met miljoene inskrywings te gebruik, het hulle 'n paar vorendag gekom verrassende resultate.
Die afgelope tyd het hierdie navorsers probeer om die teenoorgestelde taak uit te voer: die skep van beelde uit 'n onderskrif. Is dit nou moontlik om 'n heeltemal nuwe beeld uit 'n beskrywing te skep?
Hierdie gids sal twee van die mees gevorderde teks-na-beeld-modelle verken: OpenAI se DALL-E 2 en Google se Imagen AI. Elkeen van hierdie projekte het baanbrekende metodes ingestel wat die samelewing soos ons dit ken kan verander.
Maar eers, laat ons verstaan wat ons bedoel met teks-na-beeld generering.
Wat is teks-na-beeld generering?
Teks-na-beeld-modelle laat rekenaars toe om nuwe en unieke beelde te skep gebaseer op aanwysings. Mense kan nou 'n teksbeskrywing verskaf van 'n beeld wat hulle wil produseer, en die model sal probeer om 'n visuele beeld te skep wat so na as moontlik by daardie beskrywing pas.
Masjienleermodelle het die gebruik van groot datastelle wat beeld-onderskrifte-pare bevat aangewend om werkverrigting verder te verbeter.
Mees teks-na-beeld modelle gebruik 'n transformatortaalmodel om opdragte te interpreteer. Hierdie tipe model is 'n neurale netwerk wat probeer om die konteks en semantiese betekenis van natuurlike taal te leer.
Vervolgens generatiewe modelle soos diffusie modelle en generatiewe teenstandersnetwerke word vir beeldsintese gebruik.
Wat is DALLE 2?
DALL-E2 is 'n rekenaarmodel deur OpenAI wat in April 2022 vrygestel is. Die model is opgelei op 'n databasis van miljoene gemerkte prente om woorde en frases met beelde te assosieer.
Gebruikers kan 'n eenvoudige frase tik, soos "'n kat wat lasagne eet", en DALL-E 2 sal sy eie interpretasie genereer van wat die frase probeer beskryf.
Behalwe om beelde van nuuts af te skep, kan DALL-E 2 ook bestaande beelde wysig. In die voorbeeld hieronder kon DALL-E 'n gewysigde beeld van 'n kamer met 'n ekstra rusbank genereer.
DALL-E 2 is net een van baie soortgelyke projekte wat OpenAI die afgelope paar jaar vrygestel het. OpenAI se GPT-3 het nuuswaardig geword toe dit gelyk het of dit teks van verskillende style genereer.
Tans is DALL-E 2 nog in beta-toets. Belangstellende gebruikers kan inteken vir hul waglys en wag vir toegang.
Hoe werk dit?
Alhoewel die resultate van DALL-E 2 indrukwekkend is, wonder jy dalk hoe dit alles werk.
DALL-E 2 is 'n voorbeeld van 'n multimodale implementering van OpenAI se GPT-3-projek.
Eerstens word die gebruiker se teksprompt in 'n tekskodeerder geplaas wat die prompt na 'n voorstellingspasie karteer. DALL-E 2 gebruik 'n ander OpenAI-model genaamd CLIP (Contrastive Language-Image Pre-Training) om semantiese inligting uit natuurlike taal te verkry.
Volgende, 'n model bekend as die voor karteer die tekskodering in 'n beeldkodering. Hierdie beeldkodering behoort die semantiese inligting wat in die tekskoderingstap gevind is vas te lê.
Om die werklike beeld te skep, gebruik DALL-E 2 'n beelddekodeerder om 'n visuele te genereer deur gebruik te maak van semantiese inligting en beeldkoderingsbesonderhede. OpenAI gebruik 'n gewysigde weergawe van die GLY model om beeldgenerering uit te voer. GLIDE maak staat op a diffusie model beelde te skep.
Die toevoeging van GLIDE tot die DALL-E 2-model het meer fotorealistiese uitset moontlik gemaak. Aangesien die GLIDE-model stogasties of lukraak bepaal is, kan die DALL-E 2-model maklik variasies skep deur die model weer en weer te laat loop.
Beperkings
Ten spyte van die indrukwekkende resultate van die DALL-E 2-model, het dit steeds 'n paar beperkings.
Spelling teks
Aanwysings wat probeer om DALL-E 2 teks te laat genereer, toon dat dit moeilik is om woorde te spel. Kenners neem aan dat dit kan wees omdat spelinligting nie deel van die opleidingsdatastel.
Komposisionele redenasie
Navorsers neem waar dat DALL-E 2 steeds probleme ondervind met komposisionele redenering. Eenvoudig gestel, die model kan individuele aspekte van 'n beeld verstaan terwyl dit steeds probleme ondervind om die verband tussen hierdie aspekte uit te vind.
Byvoorbeeld, as die prompt "rooi kubus bo-op 'n blou kubus" gegee word, sal DALL-E 'n blou kubus en 'n rooi kubus akkuraat genereer, maar versuim om dit korrek te plaas. Daar is ook waargeneem dat die model probleme ondervind met opdragte wat vereis dat 'n spesifieke aantal voorwerpe uitgetrek word.
Vooroordeel in die datastel
As die opdrag geen ander besonderhede bevat nie, is daar waargeneem dat DALL-E wit of Westerse mense en omgewings uitbeeld. Hierdie voorstellingsvooroordeel vind plaas as gevolg van die oorvloed van Westers-sentriese beelde in die datastel.
Daar is ook waargeneem dat die model geslagstereotipes volg. Byvoorbeeld, deur die vinnige "vlugkelner" in te tik, genereer meestal beelde van vroulike vlugkelners.
Wat is Google Imagen AI?
Google se Beeld AI is 'n model wat daarop gemik is om fotorealistiese beelde uit invoerteks te skep. Soortgelyk aan DALL-E, gebruik die model ook transformatortaalmodelle om die teks te verstaan en maak staat op die gebruik van diffusiemodelle om beelde van hoë gehalte te skep.
Benewens Imagen het Google ook 'n maatstaf vir teks-na-beeld-modelle genaamd DrawBench vrygestel. Deur DrawBench te gebruik, kon hulle waarneem dat menslike beoordelaars Imagen-uitset verkies het bo ander modelle, insluitend DALL-E 2.
Hoe werk dit?
Soortgelyk aan DALL-E, skakel Imagen eers die gebruikersaanwysing om in 'n teksinbedding deur 'n bevrore tekskodeerder.
Imagen gebruik 'n diffusiemodel wat leer hoe om 'n patroon van geraas in beelde om te skakel. Die aanvanklike uitset van hierdie beelde is lae resolusie en word later deur 'n ander model wat bekend staan as 'n super-resolusie diffusiemodel gestuur om die resolusie van die finale beeld te verhoog. Die eerste diffusiemodel lewer 'n 64×64 pixel-beeld uit en word later opgeblaas tot 'n hoë-resolusie 1024×1024-beeld.
Gebaseer op die Imagen-span se navorsing, is groot bevrore taalmodelle wat slegs op teksdata opgelei is, steeds hoogs effektiewe teksenkodeerders vir teks-na-beeld-generering.
Die studie stel ook die konsep van dinamiese drumpeling bekend. Hierdie metode stel beelde in staat om meer fotorealisties te vertoon deur leidinggewigte te verhoog wanneer die beeld gegenereer word.
Opvoering van DALLE 2 vs Imagen
Voorlopige resultate van Google se maatstaf toon dat menslike respondente beelde verkies wat deur Imagen gegenereer word bo DALL-E 2 en ander teks-na-beeld-modelle soos Latent Diffusion en VQGAN+CLIP.
Uitset van die Imagen-span het ook getoon dat hul model beter presteer om teks te spel, 'n bekende swakheid van die DALL-E 2-model.
Aangesien Google egter nog nie die model aan die publiek vrygestel het nie, moet nog gesien word hoe akkuraat Google se maatstawwe is.
Gevolgtrekking
Die opkoms van fotorealistiese teks-na-beeld-modelle is omstrede omdat hierdie modelle ryp is vir onetiese gebruik.
Die tegnologie kan lei tot die skep van eksplisiete inhoud of as 'n instrument vir disinformasie. Navorsers van beide Google en OpenAI is bewus hiervan, wat deels is hoekom hierdie tegnologie steeds nie vir almal toeganklik is nie.
Teks-na-beeld-modelle het ook beduidende ekonomiese implikasies. Sal beroepe soos modelle, fotograwe en kunstenaars geraak word as modelle soos DALL-E hoofstroom word?
Op die oomblik het hierdie modelle steeds beperkings. Om enige AI-gegenereerde beeld te ondersoek, sal die onvolmaakthede daarvan openbaar. Met beide OpenAI en Google wat meeding vir die doeltreffendste modelle, kan dit 'n kwessie van tyd wees voordat 'n werklik perfekte uitset gegenereer word: 'n beeld wat nie van die regte ding onderskei kan word nie.
Wat dink jy sal gebeur as tegnologie so ver gaan?
Lewer Kommentaar