DALL.E 2 - Transformă-ți gândurile în elemente vizuale folosind text

Cuprins[Ascunde][Spectacol]

Deci, ce este exact DALL.E 2?
Cum functioneaza?
Caz de utilizare DALL.E 2
Limitări
Concluzie

Noua și îmbunătățită IA are abilități îmbunătățite, înțelegere și capacitatea de a produce imagini cu rezoluție mai mare. Este posibil să fi întâlnit în ultima vreme niște imagini ciudate și amuzante care plutesc pe internet.

Un câine Shiba Inu este îmbrăcat într-o beretă și un gât negru. Și o vidră de mare în felul pictorului olandez Vermeer „Fata cu un cercel de perle”. Și există o ceașcă de supă care arată ca un monstru lânos.

aceste imagini nu au fost create de un artist uman.

În schimb, le-a creat DALL-E 2, un nou sistem AI care poate converti descrierile textuale în imagini.

Scrieți pur și simplu ceea ce doriți să vedeți, iar inteligența artificială îl va crea pentru dvs. - cu detalii vii, calitate excelentă și, în unele cazuri, inventivitate autentică. În această postare, vom arunca o privire profundă asupra celui mai recent studiu al OpenAI, DALL.E 2, precum și asupra modului în care funcționează și multe altele. Să începem.

Deci, ce este exact DALL.E 2?

DALL-E 2 este un „model generativ”, un tip de algoritm de învățare automată care generează rezultate complicate, mai degrabă decât să efectueze sarcini de predicție sau clasificare pe datele de intrare.

Oferiți DALL-E 2 o descriere scrisă și creează o imagine care îi corespunde. Combinând concepte, calități și stiluri, DALLE 2 de la OpenAI poate produce grafică și artă inovatoare, realiste dintr-o descriere lingvistică de bază.

Cea mai recentă versiune, DALLE 2, se spune că este mai versatilă, capabilă să facă imagini din subtitrări la rezoluții mai mari și într-un spectru mai larg de stiluri creative. De exemplu, imaginile de mai jos (din postarea de blog DALL-E 2) sunt create de descrierea „Un astronaut călare pe un cal”.

O descriere concluzionează „ca o schiță în creion”, în timp ce cealaltă concluzionează „într-o manieră fotorealistă”.

Astronaut călare pe un cal

De asemenea, poate schimba fotografiile existente cu o precizie uluitoare. Așadar, puteți adăuga sau șterge elemente păstrând culorile, reflexiile și umbrele, păstrând în același timp aspectul imaginii originale.

Cum functioneaza?

DALL-E 2 folosește modele CLIP și difuzie, două sofisticate învățare profundă abordări dezvoltate în ultimii ani. Cu toate acestea, se bazează pe aceeași noțiune ca toate celelalte profunde rețele neuronale: învăţarea reprezentării. CLIP antrenează simultan două rețele neuronale pe imagini și subtitrări.

O rețea învață reprezentările vizuale din imagine, în timp ce cealaltă învață reprezentările textului. În timpul antrenamentului, cele două rețele încearcă să-și modifice parametrii astfel încât imaginile și descrierile comparabile să aibă ca rezultat încorporari similare.

„Difuziunea”, un tip de model generativ care învață să facă imagini prin zgomot și dezgomot treptat eșantioanele sale de antrenament, este cealaltă abordare de învățare automată utilizată în DALL-E 2. Modelele de difuzie sunt similare cu codificatoarele automate prin faptul că transformă datele de intrare într-un încorporarea reprezentării și apoi utilizați informațiile de încorporare pentru a recrea datele originale.

DALL.E2 Funcționează

Folosind OpenAI model de limbaj CLIP, care poate conecta descrieri textuale cu fotografii, mai întâi traduce promptul scris într-o formă intermediară care încorporează proprietățile cruciale pe care o imagine ar trebui să le aibă pentru a se potrivi cu acel prompt (conform CLIP).

În al doilea rând, DALL-E 2 creează un compatibil CLIP imagine folosind un model de difuzie, care este o rețea neuronală.

Pe fotografiile distorsionate cu pixeli aleatori se învață modele de difuzie. Ei învață cum să restabilească forma originală a fotografiilor. Modelele de difuzie pot produce imagini sintetice de înaltă calitate, mai ales atunci când sunt utilizate împreună cu o abordare de ghidare care prioritizează acuratețea față de diversitate.

În consecință, model de difuzie ia pixeli aleatori și folosește CLIP pentru a-i converti într-o nouă imagine care se potrivește cu cuvântul prompt. Datorită conceptului de difuzie, DALL-E 2 poate produce imagini cu rezoluție mai mare mai rapid decât DALL-E.

Caz de utilizare DALL.E 2

În ultimii douăzeci de ani, viziunea computerului tehnologia a progresat de la o simplă noțiune la o descoperire majoră. În ciuda acestor progrese, modelele de recunoaștere a imaginilor și a obiectelor încă se confruntă cu obstacole semnificative în viața de zi cu zi. Absența seturilor de date este unul dintre cele mai semnificative dezavantaje ale recunoașterii imaginilor și ale vederii computerizate. Deoarece există o lipsă de date la ambele capete, antrenamentul modelelor de recunoaștere a imaginii pentru a oferi rezultate 100% precise este aproape dificil.

Din fericire, noul model de învățare automată al OpenAI poate reduce decalajul în tehnologie. DALLE 2 este capabil să genereze imagini uimitoare pe baza descrierilor de text. Această producție de imagini false poate furniza date modelelor de recunoaștere a imaginilor pe baza cerințelor acestora. Absența datelor este o piedică semnificativă pentru identificarea obiectelor și imaginilor.

În era digitală, seturile de date sunt omniprezente, dar încă căutăm comenzi rapide pentru a alimenta modelul AI, astfel încât să poată oferi rezultate bune. Cu toate acestea, nu este simplu să antrenezi un model de recunoaștere a imaginii. Necesită un număr mare de seturi de date cu mici diferențe, pe care s-ar putea să nu le fi putut prelua pur și simplu.

Deci, care este răspunsul: Răspunsul este DALLE 2. Generatorul de imagini OpenAI, cu capacitatea sa de a produce imagini din texte și de a le schimba pe cele existente, poate ajuta la reducerea decalajului. Acest lucru va ajuta la generarea de date suplimentare de instruire, reducând în același timp cantitatea necesară de etichetare umană. În ciuda beneficiului semnificativ, ar trebui să fiți conștient de producțiile de imagini frauduloase și imaginile care exclud includerea. Acest lucru ar putea duce la metode de detectare a imaginilor care produc rezultate părtinitoare.

Limitări

DALL.E 2 poate avea o influență dăunătoare dacă cade în mâini greșite, potrivit OpenAI. În lumea actuală a falsurilor profunde, modelul ar putea fi folosit cu ușurință pentru a răspândi informații false sau imagini rasiste, motiv pentru care OpenAI le permite dezvoltatorilor să folosească DALL.2 doar prin invitație. Modelul trebuie să respecte o restricție riguroasă de conținut pentru toate sugestiile pe care le primește.

Pentru a exclude potențialul DALL.E 2 de a crea imagini ostile sau violente, setul de date a fost creat fără nicio armă mortală. Deși OpenAI a declarat că intenționează să-l transforme într-un API în viitor, în cazul DALL.E 2, este dispus să procedeze cu prudență.

Concluzie

DALL-E 2 este o altă descoperire interesantă a cercetării OpenAI care deschide ușa către noi aplicații.

Un exemplu este crearea de seturi masive de date pentru a răspunde uneia dintre principalele blocaje ale viziunii computerizate - datele. În timp ce cazul economic pentru multe aplicații bazate pe DALL-E va fi determinat de prețul și politicile pe care OpenAI le stabilește pentru utilizatorii săi API, toate vor avansa fără îndoială producția de imagini.

DALL.E 2 – Transformă-ți gândurile în elemente vizuale folosind text

Deci, ce este exact DALL.E 2?

Cum functioneaza?

Caz de utilizare DALL.E 2

Limitări

Concluzie

Despre Noi Gaiţă

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

Colosyan vs Heygen

Acest buletin informativ Future Tech nu e de nasol

DALL.E 2 – Transformă-ți gândurile în elemente vizuale folosind text

Deci, ce este exact DALL.E 2?

Cum functioneaza?

Caz de utilizare DALL.E 2

Limitări

Concluzie

Despre Noi Gaiţă

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

10 cele mai bune instrumente AI pentru rețelele sociale

Colosyan vs Heygen

Cele mai bune 10 instrumente pentru realizarea de videoclipuri animate AI

Interacțiuni de reader

Lasă un comentariu Anuleaza raspunsul

Acest buletin informativ Future Tech nu e de nasol