Sadržaj[Sakrij][Prikaži]
Nova i poboljšana AI ima poboljšane sposobnosti, razumijevanje i kapacitet za proizvodnju slika veće rezolucije. Možda ste u posljednje vrijeme naišli na neke čudne i zabavne slike koje lebde internetom.
Pas Shiba Inu obučen je u beretku i crnu dolčevu. I morska vidra u maniru "Djevojka sa bisernom minđušom" holandskog slikara Vermeera. A tu je i šolja supe koja izgleda kao vunasto čudovište.
ove slike nije stvorio ljudski umjetnik.
Umjesto toga, kreirao ih je DALL-E 2, novi AI sistem koji može pretvoriti tekstualne opise u slike.
Jednostavno zapišite ono što želite da vidite i AI će to kreirati za vas – sa živopisnim detaljima, odličnog kvaliteta i, u nekim slučajevima, istinske inventivnosti. U ovom postu ćemo detaljno pogledati najnoviju OpenAI-ovu studiju, DALL.E 2, kao i kako ona funkcionira, i još mnogo toga. Hajde da počnemo.
Pa, šta je zapravo DALL.E 2?
DALL-E 2 je „generativni model“, vrsta algoritma mašinskog učenja koji generiše komplikovane izlazne podatke, a ne izvršava zadatke predviđanja ili klasifikacije na ulaznim podacima.
DALL-E 2 dajete pisani opis, a on stvara sliku koja mu odgovara. Kombinacijom koncepata, kvaliteta i stilova, OpenAI-jev DALLE 2 može proizvesti inovativnu, realističnu grafiku i umjetnost iz osnovnog lingvističkog opisa.
Za najnoviju verziju, DALLE 2, kaže se da je svestranija, sposobna da pravi slike od natpisa u većim rezolucijama i u širem spektru kreativnih stilova. Na primjer, slike ispod (iz DALL-E 2 blog posta) su kreirane opisom „Astronaut jaše konja“.
Jedan opis završava, „kao skica olovkom“, dok drugi zaključuje, „na fotorealističan način“.
Takođe može da promeni postojeće fotografije sa zapanjujućom preciznošću. Dakle, možete dodavati ili brisati elemente uz zadržavanje boja, odsjaja i sjena, a sve uz zadržavanje originalnog izgleda slike.
Kako funkcioniše?
DALL-E 2 koristi modele CLIP i difuziju, dva sofisticirana duboko učenje pristupi razvijeni poslednjih godina. Međutim, zasniva se na istom pojmu kao i svi drugi duboki neuronske mreže: reprezentativno učenje. CLIP istovremeno trenira dvoje neuronske mreže na slikama i natpisima.
Jedna mreža uči vizuelne reprezentacije na slici, dok druga uči tekstualne reprezentacije. Tokom obuke, dve mreže pokušavaju da modifikuju svoje parametre tako da uporedive slike i opisi rezultiraju sličnim ugrađivanjem.
“Difuzija”, vrsta generativnog modela koji uči da pravi slike postupnim šumom i uklanjanjem šuma svojih uzoraka za obuku, drugi je pristup mašinskom učenju koji se koristi u DALL-E 2. Difuzijski modeli su slični automatskim koderima po tome što transformišu ulazne podatke u ugrađivanje reprezentacije, a zatim upotrijebite informacije o ugrađivanju za ponovno kreiranje originalnih podataka.
Koristeći OpenAI jezički model CLIP, koji može povezati tekstualne opise sa fotografijama, on prvo prevodi pisani upit u srednji oblik koji uključuje ključna svojstva koja bi slika trebala imati da odgovara tom upitu (prema CLIP-u).
Drugo, DALL-E 2 stvara CLIP-kompatibilan sliku koristeći difuzijski model, što je neuronska mreža.
Na izobličenim fotografijama sa nasumičnim pikselima, uče se modeli difuzije. Oni uče kako da vrate originalni oblik fotografija. Difuzijski modeli mogu proizvesti visokokvalitetne sintetičke slike, posebno kada se koriste u kombinaciji sa vodećim pristupom koji daje prednost preciznosti u odnosu na raznolikost.
Kao posljedica toga difuzioni model uzima nasumične piksele i koristi CLIP da ih pretvori u novu sliku koja odgovara upitu za riječ. Zbog koncepta difuzije, DALL-E 2 može proizvoditi slike veće rezolucije brže od DALL-E.
DALL.E 2 slučaj upotrebe
U poslednjih dvadeset godina, računarski vid tehnologija je napredovala od jednostavne ideje do velikog otkrića. Uprkos ovim napretcima, modeli za prepoznavanje slika i objekata i dalje se suočavaju sa značajnim preprekama u svakodnevnom životu. Nedostatak skupova podataka jedan je od najznačajnijih nedostataka prepoznavanja slika i kompjuterskog vida. Budući da postoji nedostatak podataka na oba kraja, obučavanje modela za prepoznavanje slika da daju 100 posto tačne rezultate je gotovo teško.
Na sreću, OpenAI-jev novi model mašinskog učenja može premostiti jaz u tehnologiji. DALLE 2 je u stanju da generiše neverovatne slike na osnovu tekstualnih opisa. Ova lažna proizvodnja slike može pružiti podatke modelima za prepoznavanje slika na osnovu njihovih zahtjeva. Nedostatak podataka je značajan kamen spoticanja za identifikaciju objekata i slika.
U digitalnoj eri, skupovi podataka su sveprisutni, ali još uvijek tražimo prečice za napajanje AI modela, tako da može pružiti dobre rezultate. Međutim, nije jednostavno trenirati model za prepoznavanje slika. To zahtijeva veliki broj skupova podataka sa malim razlikama, koje možda ne bismo mogli jednostavno pronaći.
Dakle, koji je odgovor: Odgovor je DALLE 2. OpenAI generator slika, sa svojim kapacitetom da proizvodi slike iz tekstova i mijenja postojeće, može pomoći da se premosti jaz. Ovo će pomoći u stvaranju dodatnih podataka o obuci, a istovremeno će smanjiti količinu potrebnog označavanja ljudi. Unatoč značajnoj prednosti, trebali biste biti svjesni lažnih produkcija slika i slika koje isključuju uključivanje. Ovo može dovesti do metoda detekcije slike koje daju pristrasne rezultate.
ograničenja
DALL.E 2 može imati štetan uticaj ako padne u pogrešne ruke, prema OpenAI. U današnjem svijetu dubokih lažiranja, model bi se lako mogao koristiti za širenje lažnih informacija ili rasističkih slika, zbog čega OpenAI dozvoljava programerima da koriste DALL.2 samo po pozivu. Manekenka se mora pridržavati rigoroznih ograničenja sadržaja za sve prijedloge koje dobije.
Da bi se isključio potencijal DALL.E 2 stvaranja bilo kakvih neprijateljskih ili nasilnih slika, skup podataka je kreiran bez ikakvog smrtonosnog oružja. Iako je OpenAI izjavio da planira da ga transformiše u API u budućnosti, u slučaju DALL.E 2, spreman je da nastavi sa oprezom.
zaključak
DALL-E 2 je još jedno zanimljivo OpenAI istraživačko otkriće koje otvara vrata novim aplikacijama.
Jedan primjer je stvaranje masivnih skupova podataka kako bi se zadovoljilo jedno od glavnih uskih grla kompjuterskog vida – podaci. Dok će ekonomski slučaj za mnoge DALL-E bazirane aplikacije biti određen cijenom i politikama koje OpenAI uspostavlja za svoje API korisnike, sve će one nesumnjivo unaprijediti proizvodnju slike.
Ostavite odgovor