Cel mai probabil știți că un computer poate descrie o imagine.
De exemplu, o imagine cu un câine care se joacă cu copiii tăi poate fi tradusă ca „câine și copii în grădină”. Dar știați că acum este posibil și opusul? Tastați câteva cuvinte și aparatul generează o nouă imagine.
Spre deosebire de o căutare Google, care caută fotografii existente, toate acestea sunt proaspete. În ultimii ani, OpenAI a fost una dintre organizațiile de top, raportând rezultate uimitoare.
Își antrenează algoritmii pe baze de date masive de text și imagini. Ei au publicat o lucrare despre modelul lor de imagine GLIDE, care a fost instruit pe sute de milioane de fotografii. În ceea ce privește fotorealismul, depășește modelul lor anterior „DALL-E”.
În această postare, ne vom uita la GLIDE de la OpenAI, una dintre câteva inițiative fascinante menite să producă și să modifice imagini fotorealiste cu modele de difuzie ghidate de text. Sa incepem.
Ce este Deschideți AI Glide?
În timp ce majoritatea imaginilor pot fi descrise în cuvinte, crearea de imagini din intrări de text necesită cunoștințe specializate și o perioadă semnificativă de timp.
Permiterea unui agent AI să producă imagini fotorealiste din indicații din limbajul natural nu numai că permite oamenilor să creeze materiale vizuale bogate și diverse cu o ușurință fără precedent, dar permite și o rafinare iterativă mai simplă și un control fin al imaginilor create.
GLIDE poate fi folosit pentru a edita fotografiile existente utilizând instrucțiuni de text în limbaj natural pentru a insera obiecte noi, a crea umbre și reflexii, a efectua imagine în pictură, Și așa mai departe.
De asemenea, poate transforma desenele de bază în fotografii fotorealiste și are capabilități excepționale de producție și reparare fără eșantion pentru situații complexe.
Cercetări recente au demonstrat că modelele de difuzie bazate pe probabilitate pot produce, de asemenea, imagini sintetice de înaltă calitate, în special atunci când sunt combinate cu o abordare de ghidare care echilibrează varietatea și fidelitatea.
OpenAI a publicat un model de difuzie ghidată în mai, ceea ce permite ca modelele de difuzie să fie condiționate de etichetele unui clasificator. GLIDE îmbunătățește acest succes aducând difuzarea ghidată problemei creării imaginilor condiționate de text.
După antrenarea unui model de difuzie GLIDE cu 3.5 miliarde de parametri folosind un codificator de text pentru a condiționa descrierile în limbaj natural, cercetătorii au testat două strategii alternative de ghidare: ghidare CLIP și ghidare fără clasificator.
CLIP este o tehnică scalabilă pentru învățarea reprezentărilor comune ale textului și imaginilor, care oferă un scor bazat pe cât de aproape este o imagine de o legendă.
Echipa a folosit această strategie în modelele lor de difuzie, înlocuind clasificatorul cu un model CLIP care „ghidează” modelele. Între timp, ghidarea fără clasificator este o strategie de direcționare a modelelor de difuzie care nu implică antrenarea unui clasificator separat.
Arhitectura GLIDE
Arhitectura GLIDE constă din trei componente: un model de difuzie ablat (ADM) antrenat pentru a genera o imagine de 64 × 64, un model de text (transformator) care influențează generarea de imagini prin intermediul unui prompt de text și un model de supraeșantionare care convertește micul nostru 64 × 64. imagini la 256 x 256 pixeli mai interpretabile.
Primele două componente lucrează împreună pentru a controla procesul de generare a imaginii, astfel încât să reflecte în mod corespunzător solicitarea textului, în timp ce cea din urmă este necesară pentru a face imaginile pe care le creăm mai ușor de înțeles. Proiectul GLIDE a fost inspirat de a raport publicat în 2021 care a arătat că tehnicile ADM au depășit modelele generative populare, de ultimă generație, în ceea ce privește calitatea eșantionului de imagine.
Pentru ADM, autorii GLIDE au folosit același model ImageNet 64 x 64 ca și Dhariwal și Nichol, dar cu 512 canale în loc de 64. Modelul ImageNet are aproximativ 2.3 miliarde de parametri ca urmare a acestui fapt.
Echipa GLIDE, spre deosebire de Dhariwal și Nichol, a dorit să aibă un control direct mai mare asupra procesului de generare a imaginii, astfel că a combinat modelul vizual cu un transformator activat pentru atenție. GLIDE vă oferă un anumit control asupra rezultatului procesului de generare a imaginii prin procesarea solicitărilor de introducere a textului.
Acest lucru se realizează prin antrenarea modelului de transformator pe un set de date suficient de mare de fotografii și legende (similar cu cel folosit în proiectul DALL-E).
Textul este inițial codificat într-o serie de jetoane K pentru a-l condiționa. După aceea, jetoanele sunt încărcate într-un model de transformator. Ieșirea transformatorului poate fi apoi utilizată în două moduri. Pentru modelul ADM, încorporarea token-ului final este utilizată în loc de încorporarea clasei.
În al doilea rând, stratul final al înglobărilor de simboluri – o serie de vectori de caracteristici – este proiectat independent de dimensiunile pentru fiecare strat de atenție din modelul ADM și concatenat la fiecare context de atenție.
În realitate, acest lucru permite modelului ADM să producă o imagine din noi combinații de simboluri de text similare într-un mod unic și fotorealist, pe baza înțelegerii învățate a cuvintelor introduse și a imaginilor aferente acestora. Acest transformator de codificare text conține 1.2 miliarde de parametri și folosește 24 de blocuri rămase cu o lățime de 2048.
În cele din urmă, modelul de difuzie cu upsampler include aproximativ 1.5 miliarde de parametri și diferă de modelul de bază prin faptul că codificatorul său de text este mai mic, cu o lățime de 1024 și 384 de canale de bază, comparativ cu modelul de bază. Acest model, după cum indică și numele, ajută la actualizarea eșantionului pentru a îmbunătăți interpretabilitatea atât pentru mașini, cât și pentru oameni.
Model de difuzie
GLIDE generează imagini folosind propria versiune a ADM (ADM-G pentru „ghidat”). Modelul ADM-G este o modificare a modelului U-net de difuzie. Un model de difuzie U-net diferă dramatic de tehnicile mai comune de sinteză a imaginii, cum ar fi VAE, GAN și transformatoare.
Ei construiesc un lanț Markov de pași de difuzie pentru a injecta treptat zgomot aleatoriu în date și apoi învață să inverseze procesul de difuzie și să reconstruiască mostrele de date necesare numai din zgomot. Funcționează în două etape: difuzie înainte și inversă.
Metoda de difuzie directă, având în vedere un punct de date din distribuția adevărată a eșantionului, adaugă o cantitate mică de zgomot eșantionului pe o serie prestabilită de pași. Pe măsură ce pașii cresc în dimensiune și se apropie de infinit, eșantionul își pierde toate caracteristicile recunoscute și secvența începe să semene cu o curbă izotropă Gaussiană.
În timpul difuziei înapoi faza, modelul de difuzie învață să inverseze influența zgomotului adăugat asupra imaginilor și să conducă imaginea produsă înapoi la forma sa originală încercând să semene cu distribuția originală a eșantionului de intrare.
Un model finalizat ar putea face acest lucru cu o intrare de zgomot gaussian real și un prompt. Metoda ADM-G diferă de cea anterioară prin faptul că un model, fie CLIP, fie un transformator personalizat, are un impact asupra fazei de difuzie inversă prin utilizarea indicatoarelor de prompt text care sunt introduse.
Capabilitati de alunecare
1. Generarea imaginii
Cea mai populară și utilizată utilizare a GLIDE va fi probabil sinteza imaginilor. Deși imaginile sunt modeste și GLIDE are dificultăți cu formele animale/umane, potențialul pentru producția de imagini dintr-o singură fotografie este aproape nesfârșit.
Poate crea fotografii cu animale, celebrități, peisaje, clădiri și multe altele și o poate face într-o varietate de stiluri de artă, precum și în mod foto-realist. Autorii cercetătorilor afirmă că GLIDE este capabil să interpreteze și să adapteze o mare varietate de intrări textuale într-un format vizual, așa cum se vede în mostrele de mai jos.
2. Alunecare în vopsire
Pictura automată a fotografiilor GLIDE este, fără îndoială, cea mai fascinantă utilizare. GLIDE poate face o fotografie existentă ca intrare, o poate procesa ținând cont de solicitarea textului pentru locațiile care trebuie modificate și apoi poate face modificări active acelor părți cu ușurință.
Trebuie utilizat împreună cu un model de editare, cum ar fi SDEdit, pentru a produce rezultate și mai bune. În viitor, aplicațiile care profită de capabilități ca acestea ar putea fi cruciale în dezvoltarea abordărilor de modificare a imaginii fără cod.
Concluzie
Acum că am trecut prin acest proces, ar trebui să înțelegeți elementele fundamentale ale modului în care funcționează GLIDE, precum și amploarea capacităților sale în crearea de imagini și modificarea în imagine.
Lasă un comentariu