Pregled sadržaja[Sakriti][Pokazati]
Novi i poboljšani AI ima poboljšane sposobnosti, razumijevanje i kapacitet za proizvodnju slika više rezolucije. Možda ste u posljednje vrijeme naišli na neke čudne i zabavne slike koje lebde internetom.
Pas Shiba Inu odjeven je u beretku i crnu dolčevitu. I morska vidra u maniri "Djevojke s bisernom naušnicom" nizozemskog slikara Vermeera. A tu je i šalica juhe koja izgleda poput vunenog čudovišta.
ove slike nisu stvoreni od strane ljudskog umjetnika.
Umjesto toga, stvorio ih je DALL-E 2, novi AI sustav koji može pretvoriti tekstualne opise u slike.
Jednostavno zapišite što želite vidjeti, a AI će to stvoriti za vas – sa živopisnim detaljima, odličnom kvalitetom i, u nekim slučajevima, istinskom inventivnošću. U ovom ćemo postu detaljno proučiti najnoviju OpenAI-jevu studiju, DALL.E 2, kao i kako funkcionira i još mnogo toga. Započnimo.
Pa, što je točno DALL.E 2?
DALL-E 2 je "generativni model", vrsta algoritma strojnog učenja koji generira komplicirane izlazne podatke umjesto da izvršava zadatke predviđanja ili klasifikacije na ulaznim podacima.
DALL-E 2 dajete pisani opis, a on stvara sliku koja mu odgovara. Kombinirajući koncepte, kvalitete i stilove, OpenAI-jev DALLE 2 može proizvesti inovativnu, realističnu grafiku i umjetnost iz osnovnog lingvističkog opisa.
Za posljednju verziju, DALLE 2, kaže se da je svestranija, sposobna stvarati slike iz naslova u višim rezolucijama iu širem spektru kreativnih stilova. Na primjer, slike ispod (iz posta na blogu DALL-E 2) stvorene su opisom "Astronaut jaše konja."
Jedan opis zaključuje "poput skice olovkom", dok drugi zaključuje "na fotorealističan način".
Također može promijeniti postojeće fotografije sa zapanjujućom preciznošću. Dakle, možete dodavati ili brisati elemente zadržavajući boje, odraze i sjene, sve dok zadržavate izvorni izgled slike.
Kako radi?
DALL-E 2 koristi CLIP i difuzijski model, dva sofisticirana duboko učenje pristupi razvijeni posljednjih godina. Međutim, temelji se na istom pojmu kao i sve ostale dubine neuronske mreže: reprezentacijsko učenje. CLIP istovremeno trenira dvoje neuronske mreže na slikama i natpisima.
Jedna mreža uči vizualne prikaze na slici, dok druga uči tekstualne prikaze. Tijekom obuke, dvije mreže pokušavaju modificirati svoje parametre tako da usporedive slike i opisi rezultiraju sličnim ugrađivanjem.
"Difuzija", vrsta generativnog modela koji uči stvarati slike postupnim uklanjanjem šuma i uklanjanjem šuma svojih uzoraka za obuku, drugi je pristup strojnog učenja koji se koristi u DALL-E 2. Modeli difuzije slični su autokoderima po tome što pretvaraju ulazne podatke u prikaz ugradnje, a zatim upotrijebite informacije o ugradnji za ponovno stvaranje izvornih podataka.
Korištenje OpenAI-a jezični model CLIP, koji može povezati tekstualne opise s fotografijama, prvo prevodi pisani upit u srednji oblik koji uključuje ključna svojstva koja bi slika trebala imati da odgovara tom upitu (prema CLIP-u).
Drugo, DALL-E 2 stvara CLIP kompatibilan slika pomoću modela difuzije, što je neuronska mreža.
Na iskrivljenim fotografijama s nasumičnim pikselima uče se modeli difuzije. Uče kako vratiti fotografijama izvorni oblik. Difuzijski modeli mogu proizvesti visokokvalitetne sintetičke slike, posebno kada se koriste u kombinaciji s pristupom usmjeravanja koji daje prednost točnosti nad raznolikošću.
Kao posljedica toga difuzijski model uzima nasumične piksele i koristi CLIP da ih pretvori u novu sliku koja odgovara upitu riječi. Zbog koncepta difuzije, DALL-E 2 može proizvesti slike više rezolucije brže od DALL-E.
Slučaj upotrebe DALL.E 2
U posljednjih dvadeset godina, računalni vid tehnologija je napredovala od jednostavnog pojma do velikog otkrića. Unatoč ovom napretku, modeli prepoznavanja slika i objekata još uvijek se suočavaju sa značajnim preprekama u svakodnevnom životu. Nepostojanje skupova podataka jedan je od najznačajnijih nedostataka prepoznavanja slike i računalnog vida. Budući da postoji manjak podataka na obje strane, gotovo je teško trenirati modele za prepoznavanje slike da daju 100 posto točne rezultate.
Srećom, OpenAI-jev novi model strojnog učenja može premostiti jaz u tehnologiji. DALLE 2 može generirati nevjerojatne slike na temelju tekstualnih opisa. Ova proizvodnja lažnih slika može pružiti podatke modelima za prepoznavanje slika na temelju njihovih zahtjeva. Nedostatak podataka značajan je kamen spoticanja za identifikaciju predmeta i slike.
U digitalnoj su eri skupovi podataka sveprisutni, ali još uvijek tražimo prečace za napajanje modela umjetne inteligencije, tako da može pružiti dobre rezultate. Međutim, nije jednostavno trenirati model za prepoznavanje slike. Potreban je velik broj skupova podataka s malim razlikama, koje možda ne bismo mogli jednostavno dohvatiti.
Dakle, koji je odgovor: Odgovor je DALLE 2. OpenAI generator slika, sa svojim kapacitetom za proizvodnju slika iz tekstova i mijenjanje postojećih, može pomoći u premošćivanju jaza. To će pomoći u stvaranju dodatnih podataka o obuci, a istovremeno će smanjiti količinu potrebnog ljudskog označavanja. Unatoč značajnoj koristi, trebali biste biti svjesni lažne proizvodnje slika i slika koje isključuju uključivanje. To može dovesti do toga da metode detekcije slike daju pristrane rezultate.
Ograničenja
DALL.E 2 bi mogao imati štetan utjecaj ako padne u krive ruke, prema OpenAI-ju. U današnjem svijetu dubokih krivotvorina, model bi se lako mogao koristiti za širenje lažnih informacija ili rasističkih slika, zbog čega OpenAI programerima dopušta korištenje DALL.2 samo na poziv. Model se mora pridržavati rigoroznih ograničenja sadržaja za sve prijedloge koje dobije.
Kako bi se isključio potencijal DALL.E 2 za stvaranje neprijateljskih ili nasilnih slika, skup podataka je stvoren bez ikakvog smrtonosnog oružja. Iako je OpenAI izjavio da ga planira transformirati u API u budućnosti, u slučaju DALL.E 2 spreman je nastaviti s oprezom.
Zaključak
DALL-E 2 još je jedno zanimljivo otkriće OpenAI istraživanja koje otvara vrata novim aplikacijama.
Jedan primjer je stvaranje golemih skupova podataka kako bi se odgovorilo na jedno od glavnih uskih grla računalnog vida – podatke. Dok će ekonomska opravdanost mnogih aplikacija temeljenih na DALL-E-u biti određena cijenom i politikama koje OpenAI uspostavlja za svoje API korisnike, sve će one nedvojbeno unaprijediti proizvodnju slika.
Ostavi odgovor