Table di cuntinutu[Piattà][Mostra]
L'IA nova è mejorata hà migliuratu e capacità, a comprensione è a capacità di pruduce l'imaghjini di più alta risoluzione. Puderete ultimamente avete scontru alcune imagine strane è divertenti chì fluttuanu in Internet.
Un cane Shiba Inu hè vistutu cù un beret è un turtleneck neru. È una lontra di mare à a manera di u pittore olandese Vermeer "Girl with a Pearl Earring". È ci hè una tazza di zuppa chì pare un mostru di lana.
Queste imagine ùn sò micca stati creati da un artista umanu.
Invece, DALL-E 2, un novu sistema AI chì pò cunvertisce e descrizioni testuali in imagine, li hà criatu.
Basta à scrive ciò chì vulete vedà, è l'AI hà da creà per voi - in dettagli vividi, grande qualità, è, in certi casi, inventiva genuina. In questu post, avemu da piglià un ochju prufondu à l'ultimu studiu di OpenAI, DALL.E 2, è cumu si travaglia, è assai di più. Cuminciamu.
Allora, chì hè esattamente DALL.E 2?
DALL-E 2 hè un "mudellu generativu", un tipu d'algoritmu d'apprendimentu automaticu chì genera un output complicatu piuttostu cà di realizà attività di prediczione o classificazione nantu à i dati di input.
Fornite DALL-E 2 cù una descrizzione scritta, è crea una stampa chì currisponde à questu. Cumminendu cuncetti, qualità è stili, DALLE 2 d'OpenAI pò pruduce gràfiche è arti innovative è realistiche da una descrizzione linguistica di basa.
L'ultima versione, DALLE 2, si dice chì hè più versatile, capace di fà ritratti da didascalia à risoluzioni più altu è in un spettru più largu di stili creativi. Per esempiu, i ritratti sottu (da u blog DALL-E 2) sò creati da a descrizzione "Un astronauta à cavallu".
Una descrizzione cunclude, "cum'è un sketch a matita", mentri l'altra cunclude, "in una manera fotorealistica".
Pò ancu cambià e fotografie esistenti cù una precisione stupente. Cusì, pudete aghjunghje o sguassate elementi mantenendu i culori, i riflessi è l'ombra, tuttu mantenendu l'aspettu di l'imaghjini originale.
Cumu viaghja?
DALL-E 2 faci usu di mudelli CLIP è diffusion, dui sufisticati studiu prufunnu approcci sviluppati in l'ultimi anni. Tuttavia, hè basatu annantu à a listessa nozione cum'è tutti l'altri prufonde rete neurali: apprendimentu di rapprisintazioni. CLIP simultaneamente trains two Redes neuronali nantu à ritratti è didascalie.
Una reta ampara a rapprisintazioni visuale in u ritrattu, mentri l'altru ampara a rapprisintazioni di testu. Durante a furmazione, e duie rete tentanu di mudificà i so paràmetri in modu chì l'imaghjini è e descrizzioni paragunabili risultatu in embeddings simili.
A "diffusione", un tipu di mudellu generativu chì aprende à fà l'imaghjini, rumorendu gradualmente è denoising i so campioni di furmazione, hè l'altru approcciu di l'apprendimentu automaticu utilizatu in DALL-E 2. I mudelli di diffusione sò simili à l'autoencoders in quantu trasformanu e dati di input in un embedding rapprisentazione è dopu aduprà l'informazione incrustazione per ricreà i dati originali.
Utilizendu OpenAI mudellu di lingua CLIP, chì ponu cunnette e descrizioni testuali cù e fotografie, prima traduce l'invitu scrittu in una forma intermediata chì incorpora e proprietà cruciali chì una stampa deve avè per currisponde à quellu prompt (sicondu CLIP).
Siconda, DALL-E 2 crea un CLIP-compliant imagine cù un mudellu di diffusione, chì hè una rete neurale.
Nantu à e foto distorte cù pixel aleatorii, i mudelli di diffusione sò amparati. Amparanu à restaurà a forma originale di e foto. I mudelli di diffusione ponu pruduce imaghjini sintetici d'alta qualità, soprattuttu quandu s'utilice in cunghjunzione cù un approcciu di guida chì priorizeghja a precisione nantu à a diversità.
Di conseguenza, u mudellu di diffusione piglia i pixel aleatorii è usa CLIP per cunvertisce in una nova maghjina chì currisponde à a parolla prompt. A causa di u cuncettu di diffusione, DALL-E 2 pò pruduce l'imaghjini di più alta risoluzione più veloce di DALL-E.
Casu d'usu DALL.E 2
In l'ultimi vint'anni, visione per computer A tecnulugia hà avanzatu da una nozione simplice à una grande svolta. Malgradu questi avanzamenti, i mudelli di ricunniscenza di l'imaghjini è di l'ughjettu anu sempre ostaculi significativi in a vita di ogni ghjornu. L'absenza di datasets hè unu di i svantaghji più significativi di ricunniscenza di l'imaghjini è visione di computer. Perchè ci hè una carenza di dati in i dui lati, a furmazione di mudelli di ricunniscenza di l'imaghjini per dà risultati 100 per centu precisi hè quasi difficiule.
Fortunatamente, u novu mudellu di apprendimentu automaticu di OpenAI pò colma a distanza in a tecnulugia. DALLE 2 hè capace di generà stampi maravigghiusi basati nantu à e descrizioni di testu. Questa produzzione di stampa falsa pò furnisce dati à mudelli di ricunniscenza di l'imaghjini basatu nantu à i so bisogni. L'assenza di dati hè un ostaculu significativu per l'identificazione di l'ughjettu è di l'imagine.
In l'era digitale, i datasets sò omnipresenti, ma simu sempre in cerca di scorciatoie per alimentà u mudellu AI, cusì pò furnisce boni risultati. Tuttavia, ùn hè micca simplice per furmà un mudellu di ricunniscenza di l'imaghjini. Hè necessariu un gran numaru di setti di dati cù pocu differenze, chì ùn pudemu micca esse stati capaci di ricuperà solu.
Allora, chì hè a risposta: A risposta hè DALLE 2. U generatore di stampa OpenAI, cù a so capacità di pruduce l'imaghjini da i testi è di cambià quelli esistenti, pò aiutà à colma u distaccu. Questu aiuterà in a generazione di dati di furmazione supplementari mentre riduce ancu a quantità di etichettatura umana necessaria. Malgradu u benefiziu significativu, duvete esse cuscenti di pruduzzione d'imaghjini fraudulenti è imagine chì escludenu l'inclusione. Questu puderia guidà à i metudi di rilevazione di l'imaghjini chì producenu risultati biasi.
Limitazioni
DALL.E 2 pò ancu avè una influenza dannosa si casca in e mani sbagliate, secondu OpenAI. In u mondu d'oghje di falsi prufonda, u mudellu puderia esse facilmente utilizatu per sparghje infurmazioni falsi o imagine razzista, per quessa OpenAI solu permette à i sviluppatori di utilizà DALL.2 per invitu. U mudellu deve rispettà una rigurosa restrizione di cuntenutu per tutti i suggerimenti chì riceve.
Per escludiri u putenziale di DALL.E 2 chì crea qualsiasi ritratti ostili o viulenti, u dataset hè statu creatu senza armi mortali. Mentre OpenAI hà dichjaratu ch'ellu pensa à trasfurmà in una API in u futuru, in u casu di DALL.E 2, hè dispostu à prucede cun prudenza.
cunchiusioni
DALL-E 2 hè un altru interessante scuperta di ricerca OpenAI chì apre a porta à novi applicazioni.
Un esempiu hè a creazione di datasets massivi per scuntrà unu di i principali colli di bottiglia di a visione informatica - dati. Mentre chì u casu ecunomicu per parechje app basate in DALL-E serà determinatu da u prezzu è e pulitiche chì OpenAI stabilisce per i so utilizatori API, tutti senza dubbitu avanzaranu a produzzione di stampa.
Lascia un Audiolibro