Kazalo[Skrij][Pokaži]
Nova in izboljšana umetna inteligenca ima izboljšane sposobnosti, razumevanje in zmogljivost za ustvarjanje slik višje ločljivosti. Morda ste v zadnjem času naleteli na čudne in zabavne slike, ki plavajo po internetu.
Pes Shiba Inu je oblečen v baretko in črno želvo. In morska vidra v maniri nizozemskega slikarja Vermeerja »Dekle z bisernim uhanom«. In tu je skodelica juhe, ki izgleda kot volnata pošast.
Te slike jih ni ustvaril človeški umetnik.
Namesto tega jih je ustvaril DALL-E 2, nov sistem AI, ki lahko besedilne opise pretvori v slike.
Preprosto zapišite, kaj želite videti, in umetna inteligenca bo to ustvarila za vas – z živimi podrobnostmi, odlično kakovostjo in v nekaterih primerih s pristno iznajdljivostjo. V tej objavi si bomo podrobno ogledali najnovejšo študijo OpenAI, DALL.E 2, pa tudi, kako deluje, in še veliko več. Začnimo.
Torej, kaj točno je DALL.E 2?
DALL-E 2 je »generativni model«, vrsta algoritma strojnega učenja, ki generira zapletene izhodne podatke, namesto da izvaja naloge napovedovanja ali klasifikacije vhodnih podatkov.
DALL-E 2 posredujete pisni opis, ta pa ustvari sliko, ki mu ustreza. Z združevanjem konceptov, kakovosti in slogov lahko OpenAI's DALLE 2 ustvari inovativno, realistično grafiko in umetnost iz osnovnega jezikovnega opisa.
Najnovejša različica, DALLE 2, naj bi bila bolj vsestranska, sposobna ustvarjanja slik iz napisov pri višjih ločljivostih in v širšem spektru ustvarjalnih stilov. Na primer, spodnje slike (iz objave na spletnem dnevniku DALL-E 2) so ustvarjene z opisom "An astronavt, ki jaha konja."
En opis se zaključi »kot skica s svinčnikom«, drugi pa »na fotorealističen način«.
Prav tako lahko spremeni obstoječe fotografije z osupljivo natančnostjo. Tako lahko dodate ali izbrišete elemente, pri tem pa ohranite barve, odseve in sence, hkrati pa ohranite izvirni videz slike.
Kako deluje?
DALL-E 2 uporablja dva sofisticirana modela CLIP in difuzijo globoko učenje pristopi, razviti v zadnjih letih. Vendar pa temelji na istem pojmu kot vse druge globine nevronske mreže: predstavniško učenje. CLIP usposablja dva hkrati nevronske mreže na slikah in napisih.
Eno omrežje se uči vizualnih predstavitev na sliki, drugo pa besedilnih predstavitev. Med usposabljanjem obe omrežji poskušata spremeniti svoje parametre, tako da primerljive slike in opisi povzročijo podobne vdelave.
»Difuzija«, vrsta generativnega modela, ki se nauči izdelovati slike s postopnim odpravljanjem šuma in odpravljanjem šuma svojih učnih vzorcev, je drugi pristop strojnega učenja, ki se uporablja v DALL-E 2. Difuzijski modeli so podobni samodejnim kodirnikom, saj pretvorijo vhodne podatke v vdelano predstavitev in nato uporabite informacije o vdelavi za ponovno ustvarjanje izvirnih podatkov.
Uporaba OpenAI-jev jezikovni model CLIP, ki lahko poveže besedilne opise s fotografijami, najprej prevede pisni poziv v vmesno obliko, ki vključuje ključne lastnosti, ki jih mora imeti slika, da se ujema s tem pozivom (v skladu s CLIP-om).
Drugič, DALL-E 2 ustvari CLIP-združljiv slika z uporabo difuzijskega modela, ki je nevronska mreža.
Na popačenih fotografijah z naključnimi piksli se naučijo difuzijski modeli. Naučijo se obnoviti prvotno obliko fotografij. Difuzijski modeli lahko proizvedejo visokokakovostne sintetične slike, zlasti če se uporabljajo v povezavi z vodilnim pristopom, ki daje prednost natančnosti pred raznolikostjo.
Posledično, difuzijski model vzame naključne slikovne pike in jih s programom CLIP pretvori v novo sliko, ki se ujema z besednim pozivom. Zaradi koncepta difuzije lahko DALL-E 2 hitreje ustvari slike višje ločljivosti kot DALL-E.
Primer uporabe DALL.E 2
V zadnjih dvajsetih letih, računalniški vid tehnologija je napredovala od preprostega pojma do velikega preboja. Kljub temu napredku se modeli za prepoznavanje slik in predmetov v vsakdanjem življenju še vedno soočajo s precejšnjimi ovirami. Odsotnost naborov podatkov je ena najpomembnejših pomanjkljivosti prepoznavanja slik in računalniškega vida. Ker na obeh straneh primanjkuje podatkov, je usposobiti modele za prepoznavanje slik, da bi dali 100-odstotno natančne rezultate, skoraj težko.
Na srečo lahko nov model strojnega učenja OpenAI premosti vrzel v tehnologiji. DALLE 2 je sposoben ustvariti neverjetne slike na podlagi besedilnih opisov. Ta lažna proizvodnja slik lahko zagotovi podatke modelom za prepoznavanje slik na podlagi njihovih zahtev. Odsotnost podatkov je pomemben kamen spotike pri identifikaciji predmeta in slike.
V digitalni dobi so nabori podatkov vseprisotni, vendar še vedno iščemo bližnjice za napajanje modela umetne inteligence, da lahko zagotovi dobre rezultate. Vendar ni preprosto usposobiti modela za prepoznavanje slike. Potrebuje veliko število nizov podatkov z majhnimi razlikami, ki jih morda ne bi mogli preprosto pridobiti.
Torej, kaj je odgovor: Odgovor je DALLE 2. Generator slik OpenAI s svojo zmogljivostjo ustvarjanja slik iz besedil in spreminjanja obstoječih lahko pomaga premostiti vrzel. To bo pomagalo pri ustvarjanju dodatnih podatkov o usposabljanju, hkrati pa zmanjšalo količino potrebnega človeškega označevanja. Kljub pomembni prednosti se morate zavedati goljufive produkcije slik in slik, ki izključujejo vključitev. Zaradi tega lahko metode zaznavanja slike povzročijo pristranske rezultate.
Omejitve
DALL.E 2 ima lahko škodljiv vpliv, če pade v napačne roke, pravi OpenAI. V današnjem svetu globokih ponaredkov bi lahko model zlahka uporabili za širjenje lažnih informacij ali rasističnih podob, zato OpenAI razvijalcem dovoljuje uporabo DALL.2 samo na povabilo. Model mora upoštevati strogo vsebinsko omejitev za vse predloge, ki jih prejme.
Da bi izključili možnost, da bi DALL.E 2 ustvaril kakršne koli sovražne ali nasilne slike, je bil nabor podatkov ustvarjen brez kakršnega koli smrtonosnega orožja. Čeprav je OpenAI izjavil, da ga namerava v prihodnosti preoblikovati v API, je v primeru DALL.E 2 pripravljen nadaljevati previdno.
zaključek
DALL-E 2 je še eno zanimivo raziskovalno odkritje OpenAI, ki odpira vrata novim aplikacijam.
Eden od primerov je ustvarjanje ogromnih naborov podatkov za reševanje enega od glavnih ozkih grl računalniškega vida – podatkov. Medtem ko bo ekonomska korist za številne aplikacije, ki temeljijo na DALL-E, določena s ceno in politikami, ki jih OpenAI vzpostavi za svoje uporabnike API-ja, bodo vse nedvomno pospešile proizvodnjo slik.
Pustite Odgovori