Nta l'ultimi anni, i mudelli di apprendimentu prufondu sò diventati più efficaci per capiscenu a lingua umana.
Pensate à prughjetti cum'è GPT-3, chì avà hè capaci di creà articuli sanu è siti web. GitHub hà presentatu recentemente Copilot GitHub, un serviziu chì furnisce snippets di codice sanu solu discrittendu u tipu di codice chì avete bisognu.
I ricercatori di OpenAI, Facebook è Google anu travagliatu nantu à modi per utilizà l'apprendimentu prufondu per trattà un altru compitu: l'imaghjini di dititulazione. Aduprendu un grande dataset cù milioni di entrate, anu ghjuntu cun alcuni surprisante risultati.
Ultimamente, sti circadori anu pruvatu à fà u compitu oppostu: creà l'imaghjini da una didascalia. Hè avà pussibule di creà una maghjina completamente nova da una descrizzione?
Questa guida esplorarà dui di i mudelli più avanzati di testu à imagine: DALL-E 2 di OpenAI è Imagen AI di Google. Ognunu di sti prughjetti hà introduttu metudi rivoluzionarii chì ponu cambià a sucietà cum'è a sapemu.
Ma prima, capimu ciò chì intendemu per generazione di testu à imagine.
Chì ghjè a generazione di testu à imagine?
Modelli di testu à imagine permette à l'urdinatori di creà imàgini novi è unichi basati nantu à prompts. A ghjente pò avà furnisce una descrizzione di testu di una maghjina chì volenu pruduce, è u mudellu hà da pruvà à creà una visuale chì currisponde à quella descrizzione u più vicinu pussibule.
I mudelli di apprendimentu automaticu anu sfruttatu l'usu di grandi datasets chì cuntenenu coppie d'imaghjini-caption per migliurà ancu u rendiment.
A maiò parte di testu à imagine mudelli utilizanu un mudellu di lingua di trasfurmazioni per interpretà i suggerimenti. Stu tipu di mudellu hè a reta neurale chì prova à amparà u cuntestu è u significatu semanticu di a lingua naturale.
Dopu, mudelli generativi cum'è mudelli diffusion è e rete avversaria generative sò aduprate per a sintesi di l'imaghjini.
Cosa hè DALLE 2?
DALL-E2 hè un mudellu di computer da OpenAI chì hè stata liberata in April 2022. U mudellu hè statu furmatu nantu à una basa di dati di milioni di stampi etichettati per associà parolle è frasi à l'imaghjini.
L'utilizatori ponu scrive una frase simplice, cum'è "un gattu chì manghja lasagna", è DALL-E 2 generà a so propria interpretazione di ciò chì a frasa prova di discrive.
In più di creà immagini da zero, DALL-E 2 pò ancu edità l'imaghjini esistenti. In l'esempiu sottu, DALL-E hà sappiutu generà una maghjina mudificata di una stanza cù un divano aghjuntu.
DALL-E 2 hè solu unu di parechji prughjetti simili chì OpenAI hà liberatu in l'ultimi anni. U GPT-3 di OpenAI hè diventatu degne di nutizie quandu pareva generà testu di stili varii.
Attualmente, DALL-E 2 hè sempre in prova beta. L'utilizatori interessati ponu iscrizzione per u so lista d'attesa è aspetta l'accessu.
Cumu travagliu?
Mentre i risultati di DALL-E 2 sò impressiunanti, pudete esse dumandate cumu funziona tuttu.
DALL-E 2 hè un esempiu di implementazione multimodale di u prughjettu GPT-3 di OpenAI.
Prima, l'invitu di testu di l'utilizatore hè piazzatu in un codificatore di testu chì mape u prompt à un spaziu di rapprisintazioni. DALL-E 2 usa un altru mudellu OpenAI chjamatu CLIP (Contrastive Language-Image Pre-Training) per ottene infurmazione semantica da a lingua naturale.
Dopu, un mudellu cunnisciutu cum'è u priori mappe a codificazione di testu in una codificazione d'imaghjini. Questa codificazione di l'imaghjini deve catturà l'infurmazione semantica truvata in u passu di codificazione di testu.
Per creà l'imaghjini attuale, DALL-E 2 usa un decodificatore di l'imaghjini per generà una visuale utilizendu infurmazione semantica è dettagli di codificazione di l'imagine. OpenAI usa una versione mudificata di u GLIDE mudellu per fà a generazione di l'imaghjini. GLIDE si basa nantu à a mudellu di diffusione per creà imagine.
L'aghjunzione di GLIDE à u mudellu DALL-E 2 hà permessu di produzzione più fotorealistica. Siccomu u mudellu GLIDE hè stochasticu o determinatu aleatoriamente, u mudellu DALL-E 2 pò facilmente creà variazioni eseguendu u mudellu una volta è una volta.
Limitazioni
Malgradu i risultati impressiunanti di u mudellu DALL-E 2, face sempre alcune limitazioni.
Testu di ortografia
I suggerimenti chì provanu à fà chì DALL-E 2 generà testu rivelanu chì hà difficultà à scrive e parolle. I sperti assumenu chì questu pò esse perchè l'infurmazioni ortografiche ùn sò micca parte di u dataset di furmazione.
Ragiunamentu cumpusizionale
I circadori osservanu chì DALL-E 2 hà sempre qualchì difficultà cù u ragiunamentu di cumpusizioni. Bastamente, u mudellu pò capisce l'aspettu individuali di una maghjina mentre avè sempre prublemi à capisce e relazioni trà questi aspetti.
Per esempiu, se dà u prompt "cube rossu nantu à un cubu blu", DALL-E generà un cubu blu è un cubu rossu accuratamente, ma ùn riesce à mette in modu currettamente. U mudellu hè statu ancu osservatu per avè difficultà cù prompts chì necessitanu un numeru specificu d'uggetti per esse tiratu.
Bias in u dataset
Se l'invitu ùn cuntene altri dettagli, DALL-E hè statu osservatu per rapprisintà e persone è ambienti bianchi o occidentali. Stu preghjudiziu di rapprisintazioni si trova per via di l'abbundanza di l'imaghjini centrati in l'Occidenti in u dataset.
U mudellu hè statu ancu osservatu per seguità stereotipi di genere. Per esempiu, scrivite in u prompt "assistente di volu" genera principalmente immagini di assistenti di volu donne.
Cosa hè Google Imagen AI?
Google Image AI hè un mudellu chì hà da scopu di creà immagini fotorealistiche da u testu di input. Simile à DALL-E, u mudellu usa dinù mudeli di lingua trasfurmazioni à capisce u testu è s'appoghja nantu à l 'usu di mudelli diffusion à creà images high-di qualità.
À fiancu d'Imagine, Google hà ancu publicatu un benchmark per mudelli di testu à imagine chjamatu DrawBench. Aduprendu DrawBench, anu sappiutu osservà chì i valutatori umani anu preferitu l'output Imagen à l'altri mudelli, cumpresu DALL-E 2.
Cumu travagliu?
Simile à DALL-E, Imagen converte prima l'invitu di l'utilizatori in un testu incrustatu attraversu un codificatore di testu congelatu.
Imagen usa un mudellu di diffusione chì ampara à cunvertisce un mudellu di rumore in imagine. A pruduzzione iniziale di sti images sò bassu risuluzzioni è sò più tardi passati à traversu un altru mudellu canusciutu comu un mudellu diffusion super-resolution à cresce a risuluzzioni di l 'imagine finali. U primu mudellu di diffusione produce una maghjina di pixel 64 × 64 è hè più tardi sbulicata à una maghjina d'alta risoluzione 1024 × 1024.
Basatu nantu à a ricerca di a squadra Imagen, i grandi mudelli di lingua congelata furmatu solu nantu à e dati di testu sò sempre codificatori di testu assai efficaci per a generazione di testu à imagine.
U studiu introduce ancu u cuncettu di thresholding dinamica. Stu metudu permette à l'imaghjini di apparissi più fotorealistiche aumentendu i pesi di guida durante a generazione di l'imaghjini.
Prestazione di DALLE 2 vs Imagen
I risultati preliminari da u benchmark di Google mostranu chì i rispondenti umani preferanu l'imaghjini generati da Imagen sopra DALL-E 2 è altri mudelli di testu à imagine cum'è Latent Diffusion è VQGAN + CLIP.
L'output chì vene da a squadra Imagen hà ancu dimustratu chì u so mudellu funziona megliu à l'ortografia di u testu, una debule cunnisciuta di u mudellu DALL-E 2.
Tuttavia, postu chì Google ùn hà ancu publicatu u mudellu à u publicu, resta sempre da vede quantu precisi sò i benchmarks di Google.
cunchiusioni
L'ascesa di mudelli fotorealistici di testu à l'imaghjini hè cuntruversu perchè sti mudelli sò maturi per un usu immorale.
A tecnulugia pò purtà à a creazione di cuntenutu esplicitu o cum'è strumentu per a disinformazione. I ricercatori di Google è OpenAI sò cunuscenti di questu, chì hè in parte perchè sti tecnulugii ùn sò micca accessibili per tutti.
I mudelli text-to-image anu ancu implicazioni ecunomiche significative. Seranu affettati i prufessiunali cum'è mudelli, fotògrafi è artisti se mudelli cum'è DALL-E diventanu mainstream?
À u mumentu, sti mudelli anu sempre limitazioni. Mantene ogni maghjina generata da l'IA à u scrutiniu revelarà e so imperfezioni. Cù l'OpenAI è Google cumpetenu per i mudelli più efficaci, pò esse una questione di tempu prima chì un output veramente perfettu hè generatu: una maghjina chì hè indistinguibile da a cosa reale.
Chì pensate chì succederà quandu a tecnulugia và cusì luntanu?
Lascia un Audiolibro