În ultimii ani, modelele de învățare profundă au devenit mai eficiente în înțelegerea limbajului uman.
Gândiți-vă la proiecte precum GPT-3, care acum poate crea articole și site-uri web întregi. GitHub a introdus recent Copilotul GitHub, un serviciu care oferă fragmente întregi de cod prin simpla descriere a tipului de cod de care aveți nevoie.
Cercetătorii de la OpenAI, Facebook și Google au lucrat la modalități de a folosi învățarea profundă pentru a gestiona o altă sarcină: subtitrărea imaginilor. Folosind un set mare de date cu milioane de intrări, au venit cu unele surprinzător rezultate obținute.
În ultimul timp, acești cercetători au încercat să îndeplinească sarcina opusă: crearea de imagini dintr-o legendă. Este acum posibil să creați o imagine complet nouă dintr-o descriere?
Acest ghid va explora două dintre cele mai avansate modele text-to-image: DALL-E 2 de la OpenAI și Imagen AI de la Google. Fiecare dintre aceste proiecte a introdus metode inovatoare care pot schimba societatea așa cum o cunoaștem.
Dar mai întâi, să înțelegem ce înțelegem prin generarea text-to-image.
Ce este generarea text-to-image?
Modele text-to-image permite computerelor să creeze imagini noi și unice pe baza solicitărilor. Oamenii pot oferi acum o descriere text a unei imagini pe care doresc să o producă, iar modelul va încerca să creeze o imagine care să se potrivească cât mai bine cu acea descriere.
Modelele de învățare automată au valorificat utilizarea de seturi mari de date care conțin perechi imagine-titlu pentru a îmbunătăți și mai mult performanța.
Majoritatea text-to-image modelele folosesc un model de limbaj transformator pentru a interpreta îndemnurile. Acest tip de model este a rețele neuronale care încearcă să învețe contextul și sensul semantic al limbajului natural.
În continuare, modele generative precum modele de difuzie iar rețelele adversare generative sunt folosite pentru sinteza imaginilor.
Ce este DALLE 2?
DALL-E2 este un model de computer de către OpenAI care a fost lansat în aprilie 2022. Modelul a fost antrenat pe o bază de date de milioane de imagini etichetate pentru a asocia cuvinte și fraze cu imagini.
Utilizatorii pot introduce o expresie simplă, cum ar fi „o pisică care mănâncă lasagna”, iar DALL-E 2 va genera propria interpretare a ceea ce expresia încearcă să descrie.
Pe lângă crearea de imagini de la zero, DALL-E 2 poate edita și imagini existente. În exemplul de mai jos, DALL-E a reușit să genereze o imagine modificată a unei camere cu o canapea adăugată.
DALL-E 2 este doar unul dintre multele proiecte similare pe care OpenAI le-a lansat în ultimii ani. GPT-3 de la OpenAI a devenit demn de știre când părea să genereze text de diferite stiluri.
În prezent, DALL-E 2 este încă în testare beta. Utilizatorii interesați se pot înscrie pentru propria lor lista de asteptare și așteptați accesul.
Cum functioneaza?
Deși rezultatele DALL-E 2 sunt impresionante, s-ar putea să vă întrebați cum funcționează totul.
DALL-E 2 este un exemplu de implementare multimodală a proiectului GPT-3 al OpenAI.
În primul rând, promptul de text al utilizatorului este plasat într-un codificator de text care mapează promptul la un spațiu de reprezentare. DALL-E 2 folosește un alt model OpenAI numit CLIP (Contrastive Language-Image Pre-Training) pentru a obține informații semantice din limbajul natural.
În continuare, un model cunoscut sub numele de anterior mapează codificarea textului într-o codificare a imaginii. Această codificare a imaginii ar trebui să capteze informațiile semantice găsite în pasul de codificare a textului.
Pentru a crea imaginea reală, DALL-E 2 folosește un decodor de imagine pentru a genera o imagine vizuală folosind informații semantice și detalii de codificare a imaginii. OpenAI folosește o versiune modificată a ALUNECARE model pentru a realiza generarea de imagini. GLIDE se bazează pe a model de difuzie pentru a crea imagini.
Adăugarea lui GLIDE la modelul DALL-E 2 a permis o ieșire mai fotorealistă. Deoarece modelul GLIDE este stocastic sau determinat aleatoriu, modelul DALL-E 2 poate crea cu ușurință variații prin rularea modelului din nou și din nou.
Limitări
În ciuda rezultatelor impresionante ale modelului DALL-E 2, acesta se confruntă în continuare cu unele limitări.
Textul de ortografie
Solicitările care încearcă să facă DALL-E 2 să genereze text dezvăluie că are dificultăți de ortografie. Experții presupun că acest lucru se poate datora faptului că informațiile de ortografie nu fac parte din set de date de antrenament.
Raționamentul compozițional
Cercetătorii observă că DALL-E 2 are încă unele dificultăți cu raționamentul compozițional. Mai simplu spus, modelul poate înțelege aspectele individuale ale unei imagini, în timp ce încă are probleme în a afla relațiile dintre aceste aspecte.
De exemplu, dacă primește promptul „cub roșu deasupra unui cub albastru”, DALL-E va genera cu precizie un cub albastru și un cub roșu, dar nu le va plasa corect. S-a observat, de asemenea, că modelul are dificultăți cu solicitările care necesită un anumit număr de obiecte pentru a fi extrase.
Prejudecăți în setul de date
Dacă promptul nu conține alte detalii, s-a observat că DALL-E descrie oameni și medii albe sau occidentale. Această părtinire reprezentativă apare din cauza abundenței de imagini centrate pe Occident în setul de date.
S-a observat, de asemenea, că modelul urmează stereotipurile de gen. De exemplu, tastarea promptului „însoțitor de zbor” generează în mare parte imagini cu însoțitoare de bord femei.
Ce este Google Imagen AI?
Google Imagen AI este un model care își propune să creeze imagini fotorealiste din textul introdus. Similar cu DALL-E, modelul folosește și modele de limbaj transformator pentru a înțelege textul și se bazează pe utilizarea modelelor de difuzie pentru a crea imagini de înaltă calitate.
Alături de Imagen, Google a lansat și un benchmark pentru modelele text-to-image numit DrawBench. Folosind DrawBench, ei au putut observa că evaluatorii umani preferau ieșirea Imagen față de alte modele, inclusiv DALL-E 2.
Cum functioneaza?
Similar cu DALL-E, Imagen convertește mai întâi promptul utilizatorului într-un text încorporat printr-un codificator de text înghețat.
Imagen folosește un model de difuzie care învață cum să transforme un model de zgomot în imagini. Ieșirea inițială a acestor imagini este de rezoluție scăzută și este trecută ulterior printr-un alt model cunoscut sub numele de model de difuzie de super-rezoluție pentru a crește rezoluția imaginii finale. Primul model de difuzie emite o imagine de 64×64 pixeli și este ulterior extins la o imagine de înaltă rezoluție de 1024×1024.
Pe baza cercetărilor echipei Imagen, modelele mari de limbă înghețată instruite doar pe date text sunt încă codificatoare de text extrem de eficiente pentru generarea text-to-image.
Studiul introduce, de asemenea, conceptul de prag dinamic. Această metodă permite imaginilor să pară mai fotorealiste prin creșterea greutăților de ghidare la generarea imaginii.
Performanța DALLE 2 vs Imagen
Rezultatele preliminare ale benchmark-ului Google arată că respondenții umani preferă imaginile generate de Imagen față de DALL-E 2 și alte modele text-to-image, cum ar fi Latent Diffusion și VQGAN+CLIP.
Rezultatele provenite de la echipa Imagen au arătat, de asemenea, că modelul lor are performanțe mai bune la scrierea textului, o slăbiciune cunoscută a modelului DALL-E 2.
Cu toate acestea, deoarece Google nu a lansat încă modelul publicului, rămâne încă de văzut cât de precise sunt benchmark-urile Google.
Concluzie
Creșterea modelelor fotorealiste text-to-image este controversată, deoarece aceste modele sunt pregătite pentru o utilizare neetică.
Tehnologia poate duce la crearea de conținut explicit sau ca instrument de dezinformare. Cercetătorii de la Google și OpenAI sunt conștienți de acest lucru, motiv pentru care aceste tehnologii nu sunt încă accesibile tuturor.
Modelele text-to-image au, de asemenea, implicații economice semnificative. Vor fi afectate profesii precum modelele, fotografi și artiști dacă modelele precum DALL-E devin mainstream?
În acest moment, aceste modele au încă limitări. Dacă țineți sub control orice imagine generată de AI, va dezvălui imperfecțiunile acesteia. Având în vedere că atât OpenAI, cât și Google concurează pentru cele mai eficiente modele, poate fi o chestiune de timp până să fie generată o ieșire cu adevărat perfectă: o imagine care nu se poate distinge de cea reală.
Ce crezi că se va întâmpla când tehnologia va merge atât de departe?
Lasă un comentariu