DALL-E 2 vs Imagen - Immagini è arte generate da AI

Table di cuntinutu[Piattà][Mostra]

Chì ghjè a generazione di testu à imagine?
Cosa hè DALLE 2?+-
- Cumu travagliu?
- Limitazioni
Cosa hè Google Imagen AI?+-
- Cumu travagliu?
Prestazione di DALLE 2 vs Imagen
cunchiusioni

Nta l'ultimi anni, i mudelli di apprendimentu prufondu sò diventati più efficaci per capiscenu a lingua umana.

Pensate à prughjetti cum'è GPT-3, chì avà hè capaci di creà articuli sanu è siti web. GitHub hà presentatu recentemente Copilot GitHub, un serviziu chì furnisce snippets di codice sanu solu discrittendu u tipu di codice chì avete bisognu.

I ricercatori di OpenAI, Facebook è Google anu travagliatu nantu à modi per utilizà l'apprendimentu prufondu per trattà un altru compitu: l'imaghjini di dititulazione. Aduprendu un grande dataset cù milioni di entrate, anu ghjuntu cun alcuni surprisante risultati.

Ultimamente, sti circadori anu pruvatu à fà u compitu oppostu: creà l'imaghjini da una didascalia. Hè avà pussibule di creà una maghjina completamente nova da una descrizzione?

Questa guida esplorarà dui di i mudelli più avanzati di testu à imagine: DALL-E 2 di OpenAI è Imagen AI di Google. Ognunu di sti prughjetti hà introduttu metudi rivoluzionarii chì ponu cambià a sucietà cum'è a sapemu.

Ma prima, capimu ciò chì intendemu per generazione di testu à imagine.

Chì ghjè a generazione di testu à imagine?

Modelli di testu à imagine permette à l'urdinatori di creà imàgini novi è unichi basati nantu à prompts. A ghjente pò avà furnisce una descrizzione di testu di una maghjina chì volenu pruduce, è u mudellu hà da pruvà à creà una visuale chì currisponde à quella descrizzione u più vicinu pussibule.

I mudelli di apprendimentu automaticu anu sfruttatu l'usu di grandi datasets chì cuntenenu coppie d'imaghjini-caption per migliurà ancu u rendiment.

A maiò parte di testu à imagine mudelli utilizanu un mudellu di lingua di trasfurmazioni per interpretà i suggerimenti. Stu tipu di mudellu hè a reta neurale chì prova à amparà u cuntestu è u significatu semanticu di a lingua naturale.

Dopu, mudelli generativi cum'è mudelli diffusion è e rete avversaria generative sò aduprate per a sintesi di l'imaghjini.

Cosa hè DALLE 2?

DALL-E 2 crea immagini realistiche è arti

DALL-E2 hè un mudellu di computer da OpenAI chì hè stata liberata in April 2022. U mudellu hè statu furmatu nantu à una basa di dati di milioni di stampi etichettati per associà parolle è frasi à l'imaghjini.

L'utilizatori ponu scrive una frase simplice, cum'è "un gattu chì manghja lasagna", è DALL-E 2 generà a so propria interpretazione di ciò chì a frasa prova di discrive.

In più di creà immagini da zero, DALL-E 2 pò ancu edità l'imaghjini esistenti. In l'esempiu sottu, DALL-E hà sappiutu generà una maghjina mudificata di una stanza cù un divano aghjuntu.

DALL-E 2 pò edità l'imaghjini esistenti

DALL-E 2 hè solu unu di parechji prughjetti simili chì OpenAI hà liberatu in l'ultimi anni. U GPT-3 di OpenAI hè diventatu degne di nutizie quandu pareva generà testu di stili varii.

Attualmente, DALL-E 2 hè sempre in prova beta. L'utilizatori interessati ponu iscrizzione per u so lista d'attesa è aspetta l'accessu.

Cumu travagliu?

Mentre i risultati di DALL-E 2 sò impressiunanti, pudete esse dumandate cumu funziona tuttu.

DALL-E 2 hè un esempiu di implementazione multimodale di u prughjettu GPT-3 di OpenAI.

Panoramica di l'architettura DALL-E 2

Prima, l'invitu di testu di l'utilizatore hè piazzatu in un codificatore di testu chì mape u prompt à un spaziu di rapprisintazioni. DALL-E 2 usa un altru mudellu OpenAI chjamatu CLIP (Contrastive Language-Image Pre-Training) per ottene infurmazione semantica da a lingua naturale.

Dopu, un mudellu cunnisciutu cum'è u priori mappe a codificazione di testu in una codificazione d'imaghjini. Questa codificazione di l'imaghjini deve catturà l'infurmazione semantica truvata in u passu di codificazione di testu.

Per creà l'imaghjini attuale, DALL-E 2 usa un decodificatore di l'imaghjini per generà una visuale utilizendu infurmazione semantica è dettagli di codificazione di l'imagine. OpenAI usa una versione mudificata di u GLIDE mudellu per fà a generazione di l'imaghjini. GLIDE si basa nantu à a mudellu di diffusione per creà imagine.

L'aghjunzione di GLIDE à u mudellu DALL-E 2 hà permessu di produzzione più fotorealistica. Siccomu u mudellu GLIDE hè stochasticu o determinatu aleatoriamente, u mudellu DALL-E 2 pò facilmente creà variazioni eseguendu u mudellu una volta è una volta.

Limitazioni

Malgradu i risultati impressiunanti di u mudellu DALL-E 2, face sempre alcune limitazioni.

Testu di ortografia

mudellu messes up l'ortografia di e parolle in signages

I suggerimenti chì provanu à fà chì DALL-E 2 generà testu rivelanu chì hà difficultà à scrive e parolle. I sperti assumenu chì questu pò esse perchè l'infurmazioni ortografiche ùn sò micca parte di u dataset di furmazione.

Ragiunamentu cumpusizionale

U mudellu si batte per mette l'uggetti in u spaziu

I circadori osservanu chì DALL-E 2 hà sempre qualchì difficultà cù u ragiunamentu di cumpusizioni. Bastamente, u mudellu pò capisce l'aspettu individuali di una maghjina mentre avè sempre prublemi à capisce e relazioni trà questi aspetti.

Per esempiu, se dà u prompt "cube rossu nantu à un cubu blu", DALL-E generà un cubu blu è un cubu rossu accuratamente, ma ùn riesce à mette in modu currettamente. U mudellu hè statu ancu osservatu per avè difficultà cù prompts chì necessitanu un numeru specificu d'uggetti per esse tiratu.

Bias in u dataset

Se l'invitu ùn cuntene altri dettagli, DALL-E hè statu osservatu per rapprisintà e persone è ambienti bianchi o occidentali. Stu preghjudiziu di rapprisintazioni si trova per via di l'abbundanza di l'imaghjini centrati in l'Occidenti in u dataset.

DALL-E 2 hà preghjudizii di genere

U mudellu hè statu ancu osservatu per seguità stereotipi di genere. Per esempiu, scrivite in u prompt "assistente di volu" genera principalmente immagini di assistenti di volu donne.

Cosa hè Google Imagen AI?

DALL-E 2 vs Imagen - Imagen hè megliu in ortografia è cumpusizioni

Google Image AI hè un mudellu chì hà da scopu di creà immagini fotorealistiche da u testu di input. Simile à DALL-E, u mudellu usa dinù mudeli di lingua trasfurmazioni à capisce u testu è s'appoghja nantu à l 'usu di mudelli diffusion à creà images high-di qualità.

À fiancu d'Imagine, Google hà ancu publicatu un benchmark per mudelli di testu à imagine chjamatu DrawBench. Aduprendu DrawBench, anu sappiutu osservà chì i valutatori umani anu preferitu l'output Imagen à l'altri mudelli, cumpresu DALL-E 2.

Cumu travagliu?

imagen usa un mudellu di diffusione per pruduce un travagliu d'alta risoluzione

Simile à DALL-E, Imagen converte prima l'invitu di l'utilizatori in un testu incrustatu attraversu un codificatore di testu congelatu.

Imagen usa un mudellu di diffusione chì ampara à cunvertisce un mudellu di rumore in imagine. A pruduzzione iniziale di sti images sò bassu risuluzzioni è sò più tardi passati à traversu un altru mudellu canusciutu comu un mudellu diffusion super-resolution à cresce a risuluzzioni di l 'imagine finali. U primu mudellu di diffusione produce una maghjina di pixel 64 × 64 è hè più tardi sbulicata à una maghjina d'alta risoluzione 1024 × 1024.

Basatu nantu à a ricerca di a squadra Imagen, i grandi mudelli di lingua congelata furmatu solu nantu à e dati di testu sò sempre codificatori di testu assai efficaci per a generazione di testu à imagine.

U studiu introduce ancu u cuncettu di thresholding dinamica. Stu metudu permette à l'imaghjini di apparissi più fotorealistiche aumentendu i pesi di guida durante a generazione di l'imaghjini.

Prestazione di DALLE 2 vs Imagen

I risultati preliminari da u benchmark di Google mostranu chì i rispondenti umani preferanu l'imaghjini generati da Imagen sopra DALL-E 2 è altri mudelli di testu à imagine cum'è Latent Diffusion è VQGAN + CLIP.

Risultati DALL-E 2 vs Imagen utilizendu DrawBench da Google

L'output chì vene da a squadra Imagen hà ancu dimustratu chì u so mudellu funziona megliu à l'ortografia di u testu, una debule cunnisciuta di u mudellu DALL-E 2.

Tuttavia, postu chì Google ùn hà ancu publicatu u mudellu à u publicu, resta sempre da vede quantu precisi sò i benchmarks di Google.

cunchiusioni

L'ascesa di mudelli fotorealistici di testu à l'imaghjini hè cuntruversu perchè sti mudelli sò maturi per un usu immorale.

A tecnulugia pò purtà à a creazione di cuntenutu esplicitu o cum'è strumentu per a disinformazione. I ricercatori di Google è OpenAI sò cunuscenti di questu, chì hè in parte perchè sti tecnulugii ùn sò micca accessibili per tutti.

I mudelli text-to-image anu ancu implicazioni ecunomiche significative. Seranu affettati i prufessiunali cum'è mudelli, fotògrafi è artisti se mudelli cum'è DALL-E diventanu mainstream?

À u mumentu, sti mudelli anu sempre limitazioni. Mantene ogni maghjina generata da l'IA à u scrutiniu revelarà e so imperfezioni. Cù l'OpenAI è Google cumpetenu per i mudelli più efficaci, pò esse una questione di tempu prima chì un output veramente perfettu hè generatu: una maghjina chì hè indistinguibile da a cosa reale.

Chì pensate chì succederà quandu a tecnulugia và cusì luntanu?

DALL-E 2 vs Imagen - Immagini è Art generati da AI

Chì ghjè a generazione di testu à imagine?

Cosa hè DALLE 2?

Cumu travagliu?

Limitazioni

Cosa hè Google Imagen AI?

Cumu travagliu?

Prestazione di DALLE 2 vs Imagen

cunchiusioni

prupòsitu di lu Deion Menor

Più Articuli nantu à HashDork:

Cumu riduce l'allucinazioni in a vostra IA

Colossyan vs Heygen

Stu Future Tech Newsletter ùn Suck

DALL-E 2 vs Imagen - Immagini è Art generati da AI

Chì ghjè a generazione di testu à imagine?

Cosa hè DALLE 2?

Cumu travagliu?

Limitazioni

Cosa hè Google Imagen AI?

Cumu travagliu?

Prestazione di DALLE 2 vs Imagen

cunchiusioni

prupòsitu di lu Deion Menor

Più Articuli nantu à HashDork:

Cumu riduce l'allucinazioni in a vostra IA

I 10 migliori strumenti AI per i Social Media

Colossyan vs Heygen

10 migliori strumenti di creazione di video animati AI

Lettore interacziunale

Lascia un Audiolibro Annulla madricale

Stu Future Tech Newsletter ùn Suck