V zadnjih letih so modeli globokega učenja postali učinkovitejši pri razumevanju človeškega jezika.
Pomislite na projekte, kot so GPT-3, ki je zdaj sposoben ustvarjati celotne članke in spletne strani. GitHub je pred kratkim predstavil Kopilot GitHub, storitev, ki ponuja celotne izrezke kode s preprostim opisom vrste kode, ki jo potrebujete.
Raziskovalci pri OpenAI, Facebooku in Googlu se ukvarjajo z načini, kako uporabiti globoko učenje za obvladovanje druge naloge: dodajanje napisov slikam. Z uporabo velikega nabora podatkov z milijoni vnosov so prišli do nekaterih presenetljivo Rezultati.
V zadnjem času so ti raziskovalci poskušali opraviti nasprotno nalogo: ustvariti slike iz napisa. Ali je zdaj mogoče iz opisa ustvariti popolnoma novo sliko?
Ta vodnik bo raziskal dva najnaprednejša modela besedila v sliko: DALL-E 2 OpenAI in Googlov Imagen AI. Vsak od teh projektov je uvedel prelomne metode, ki lahko spremenijo družbo, kot jo poznamo.
Najprej pa poglejmo, kaj mislimo z ustvarjanjem besedila v sliko.
Kaj je ustvarjanje besedila v sliko?
Modeli besedila v sliko omogočajo računalnikom ustvarjanje novih in edinstvenih slik na podlagi pozivov. Ljudje lahko zdaj zagotovijo besedilni opis slike, ki jo želijo izdelati, model pa bo poskušal ustvariti vizualno sliko, ki se čim bolj ujema s tem opisom.
Modeli strojnega učenja so izkoristili uporabo velikih naborov podatkov, ki vsebujejo pare slika-napis, za nadaljnje izboljšanje zmogljivosti.
Večina besedila v sliko modeli uporabljajo transformatorski jezikovni model za razlago pozivov. Ta vrsta modela je a nevronska mreža ki se poskuša naučiti konteksta in pomenskega pomena naravnega jezika.
Dalje, generativni modeli, kot je npr difuzijski modeli in generativna kontradiktorna omrežja se uporabljajo za sintezo slike.
Kaj je DALLE 2?
DALL-E2 je računalniški model podjetja OpenAI, ki je bil izdan aprila 2022. Model je bil usposobljen na bazi podatkov z milijoni označenih slik za povezovanje besed in besednih zvez s slikami.
Uporabniki lahko vnesejo preprosto besedno zvezo, kot je »mačka, ki jedo lazanjo«, in DALL-E 2 bo ustvaril lastno interpretacijo tega, kar fraza poskuša opisati.
Poleg ustvarjanja slik iz nič lahko DALL-E 2 ureja tudi obstoječe slike. V spodnjem primeru je DALL-E uspel ustvariti spremenjeno sliko sobe z dodanim kavčem.
DALL-E 2 je le eden izmed mnogih podobnih projektov, ki jih je OpenAI izdal v zadnjih nekaj letih. GPT-3 OpenAI je postal časopis vreden, ko se je zdelo, da ustvarja besedilo različnih slogov.
Trenutno je DALL-E 2 še vedno v beta testiranju. Zainteresirani uporabniki se lahko prijavijo za svoje čakalna lista in počakajte na dostop.
Kako deluje?
Čeprav so rezultati DALL-E 2 impresivni, se morda sprašujete, kako vse skupaj deluje.
DALL-E 2 je primer multimodalne izvedbe OpenAI-jevega projekta GPT-3.
Najprej se besedilni poziv uporabnika postavi v kodirnik besedila, ki poziv preslika v prostor za predstavitev. DALL-E 2 uporablja drug model OpenAI, imenovan CLIP (Contrastive Language-Image Pre-Training), za pridobivanje semantičnih informacij iz naravnega jezika.
Sledi model, znan kot pred preslika kodiranje besedila v kodiranje slike. To kodiranje slike bi moralo zajemati semantične informacije, ki jih najdete v koraku kodiranja besedila.
Za ustvarjanje dejanske slike DALL-E 2 uporablja slikovni dekoder za ustvarjanje vizualne slike z uporabo semantičnih informacij in podrobnosti kodiranja slike. OpenAI uporablja spremenjeno različico GLEDE model za ustvarjanje slike. GLIDE se opira na a difuzijski model za ustvarjanje slik.
Dodatek GLIDE k modelu DALL-E 2 je omogočil bolj fotorealističen izpis. Ker je model GLIDE stohastičen ali naključno določen, lahko model DALL-E 2 zlahka ustvari variacije z vnovičnim zagonom modela.
Omejitve
Kljub impresivnim rezultatom modela DALL-E 2 se še vedno sooča z nekaterimi omejitvami.
Črkovanje besedila
Pozivi, ki poskušajo DALL-E 2 ustvariti besedilo, razkrijejo, da ima težave pri črkovanju besed. Strokovnjaki domnevajo, da je to morda zato, ker informacije o črkovanju niso del nabor podatkov za usposabljanje.
Kompozicijsko sklepanje
Raziskovalci opažajo, da ima DALL-E 2 še vedno nekaj težav s sklepanjem o kompoziciji. Preprosto povedano, model lahko razume posamezne vidike slike, medtem ko ima še vedno težave pri ugotavljanju odnosov med temi vidiki.
Na primer, če prejmete poziv »rdeča kocka na vrhu modre kocke«, bo DALL-E natančno ustvaril modro in rdečo kocko, vendar ju ne bo pravilno postavil. Opazili so tudi, da ima model težave s pozivi, ki zahtevajo, da je treba izvleči določeno število predmetov.
Pristranskost v naboru podatkov
Če poziv ne vsebuje drugih podrobnosti, so opazili, da DALL-E prikazuje bele ali zahodne ljudi in okolja. Ta reprezentativna pristranskost se pojavi zaradi obilice zahodno osredotočenih slik v naboru podatkov.
Opazili so tudi, da model sledi spolnim stereotipom. Če na primer vnesete poziv »stevardesa«, se večinoma ustvarijo slike stevardes.
Kaj je Google Imagen AI?
Googlova Slika AI je model, katerega namen je ustvariti fotorealistične slike iz vnesenega besedila. Podobno kot DALL-E tudi model uporablja transformatorske jezikovne modele za razumevanje besedila in se opira na uporabo difuzijskih modelov za ustvarjanje visokokakovostnih slik.
Poleg Imagena je Google izdal tudi merilo uspešnosti za modele besedila v sliko, imenovano DrawBench. Z uporabo DrawBench so lahko opazili, da so človeški ocenjevalci dali prednost izhodu Imagen pred drugimi modeli, vključno z DALL-E 2.
Kako deluje?
Podobno kot DALL-E Imagen najprej pretvori uporabniški poziv v vdelano besedilo prek kodirnika zamrznjenega besedila.
Imagen uporablja difuzijski model, ki se nauči pretvoriti vzorec šuma v slike. Začetni izhod teh slik je nizke ločljivosti in se kasneje prenesejo skozi drug model, znan kot difuzijski model super ločljivosti, da se poveča ločljivost končne slike. Prvi difuzijski model ustvari sliko 64 × 64 slikovnih pik, kasneje pa se poveča na sliko visoke ločljivosti 1024 × 1024.
Na podlagi raziskave skupine Imagen so veliki zamrznjeni jezikovni modeli, usposobljeni samo na besedilnih podatkih, še vedno zelo učinkoviti kodirniki besedila za ustvarjanje besedila v sliko.
Študija uvaja tudi koncept dinamičnega določanja praga. Ta metoda omogoča, da so slike videti bolj fotorealistične s povečanjem uteži vodenja pri ustvarjanju slike.
Zmogljivost DALLE 2 proti Imagenu
Predhodni rezultati Googlovega merila uspešnosti kažejo, da imajo človeški anketiranci raje slike, ki jih ustvari Imagen, kot DALL-E 2 in druge modele besedila v sliko, kot sta Latent Diffusion in VQGAN+CLIP.
Rezultat ekipe Imagen je tudi pokazal, da je njihov model boljši pri črkovanju besedila, kar je znana slabost modela DALL-E 2.
Ker pa Google modela še ni objavil javnosti, je treba še videti, kako natančna so Googlova merila.
zaključek
Vzpon fotorealističnih modelov besedila v sliko je sporen, ker so ti modeli zreli za neetično uporabo.
Tehnologija lahko vodi do ustvarjanja eksplicitne vsebine ali kot orodje za dezinformacije. Tega se zavedajo raziskovalci tako Googla kot OpenAI, delno tudi zato te tehnologije še vedno niso dostopne vsem.
Modeli besedila v sliko imajo tudi pomembne gospodarske posledice. Ali bodo poklici, kot so modeli, fotografi in umetniki, prizadeti, če modeli, kot je DALL-E, postanejo mainstream?
Trenutno imajo ti modeli še vedno omejitve. Če katero koli sliko, ustvarjeno z umetno inteligenco, natančno preučite, boste razkrili njene nepopolnosti. Ker tako OpenAI kot Google tekmujeta za najučinkovitejše modele, je morda vprašanje časa, kdaj bo ustvarjen resnično popoln rezultat: slika, ki je ni mogoče ločiti od prave stvari.
Kaj misliš, da se bo zgodilo, ko bo tehnologija šla tako daleč?
Pustite Odgovori