Table di cuntinutu[Piattà][Mostra]
In generale, mudelli generativi profondi cum'è GAN, VAE è mudelli autoregressivi trattanu i prublemi di sintesi di l'imaghjini.
Data l'alta qualità di e dati chì creanu, e reti generative adversary (GAN) anu ricivutu assai attenzione in l'ultimi anni.
I mudelli di diffusione sò un altru campu di studiu fascinante chì s'hè stabilitu. I campi di l'imaghjini, u video è a generazione di voce anu trovu un usu estensivu per i dui.
Modelli di diffusione versus GAN: Quale pruduce risultati megliu? Naturalmente, questu hà purtatu à una discussione in corso.
In l'architettura computazionale cunnisciuta cum'è GAN, dui Redes neuronali sò battuti unu contru à l'altru per pruduce istanze di dati sintesi di novu chì ponu passà per dati genuini.
I mudelli di diffusione sò sempre più populari postu chì furniscenu stabilità di furmazione è risultati elevati per a produzzione di musica è grafica.
Stu articulu hà da passà à traversu u mudellu di diffusione è GANs in detail, oltri comu si sferenti da un altru è uni pochi di altre cose.
Allora, chì sò e Reti Adversariali Generative?
Per creà novi istanze artificiali di dati chì ponu esse sbagliati per dati genuini, e rete di avversari generative (GAN) impieganu duie reti neurali è li mette in contru l'una à l'altru (cusì l'"avversariu" in u nome).
Sò largamente utilizati per a creazione di discorsu, video è stampa.
L'obiettivu di GAN hè di creà dati micca scuperti prima da un set di dati specificu. Tentativu di inferisce un mudellu di a distribuzione di dati sottostanti attuale, micca identificata da i campioni, face questu.
In alternativa, queste rete sò mudelli impliciti chì tentanu di amparà una distribuzione statistica specifica.
U metudu GAN utilizatu per scopre cumu rializà stu scopu era novu. In fatti, pruducenu dati da ghjucà un ghjocu di dui ghjucatori per sviluppà un mudellu implicitu.
I seguenti descrizanu a struttura:
- un Discriminatore chì guadagna a capacità di differenzia trà dati autentichi è falsi
- un generatore chì piglia novi modi per creà dati pò ingannà u discriminatore.
U discriminatore posa cum'è una rete neurale. Dunque, u generatore hà bisognu di creà una foto cù alta qualità per ingannà.
U fattu chì questi generatori ùn sò micca furmati cù una distribuzione di output hè una distinzione significativa trà mudelli di autoencoder è altri mudelli.
Ci hè duie manere di scumpressà a funzione di perdita di u mudellu:
- a capacità di quantificà se u discriminatore prevede accuratamente e dati reali
- i dati generati sò predetti accuratamente da una parte.
Nantu à u megliu discriminatore fattibile, sta funzione di perdita hè allora minimizzata:
I mudelli generichi ponu dunque esse pensati cum'è mudelli di minimizazione di distanza è, se u discriminatore hè ideale, cum'è minimizazione di divergenza trà a distribuzione vera è prodotta.
In realtà, diverse divergenze ponu esse impiegate è risultatu in diversi metudi di furmazione GAN.
A dinamica di l'apprendimentu, chì include un scambiu trà u generatore è u discriminatore, hè sfida à seguità, malgradu chì hè simplice per aghjustà a funzione di perdita di GAN.
Ùn ci hè ancu assicurazione chì l'apprendimentu cunvergerà. In cunsiquenza, a furmazione di un mudellu GAN hè difficiule, postu chì hè tipicu per curriri à traversu prublemi cum'è gradienti chì sparisce è colapsu di u modu (quandu ùn ci hè micca diversità in i campioni generati).
Avà, hè u tempu per i mudelli di diffusione
U prublema cù a cunvergenza di furmazione di GAN hè stata trattata attraversu u sviluppu di mudelli di diffusione.
Questi mudelli assumanu chì un prucessu di diffusione hè equivalente à a perdita di l'infurmazioni purtata da l'interferenza progressiva di u rumore (un sonu gaussianu hè aghjuntu à ogni passu di u prucessu di diffusione).
U scopu di un tali mudellu hè di determinà cumu u rumore affetta l'infurmazioni prisenti in a mostra, o, per mette in un altru modu, quantu infurmazione hè persa per via di diffusione.
Se un mudellu pò capisce questu, duverebbe esse capace di ricuperà a mostra originale è annullà a perdita di informazioni chì hè accaduta.
Stu hè rializatu attraversu un mudellu di diffusione denoising. Un prucessu di diffusione avanti è un prucessu di diffusione inversa custituiscenu i dui passi.
U prucessu di diffusione avanti implica l'aghjunghje gradualmente u sonu gaussianu (vale à dì, u prucessu di diffusione) finu à chì i dati sò cumpletamente contaminati da u rumore.
A rete neurale hè in seguitu furmata cù u metudu di diffusione inversa per amparà e probabilità di distribuzione cundizionale per invertisce u rumore.
Quì pudete capisce più nantu à u mudellu di diffusione.
Modellu di diffusione Vs GAN
Cum'è un mudellu di diffusione, i GAN producenu ritratti da u rumore.
U mudellu hè custituitu da una rete neurale generatore, chì principia cù u rumore di qualchì variabile di cundizzioni informativa, cum'è una etichetta di classa o una codificazione di testu.
U risultatu deve esse qualcosa chì s'assumiglia à una maghjina realistica.
Per creà generazioni fotorealistiche è d'alta fedeltà, impiegemu GAN. Ancu visuals più realistichi cà GAN sò pruduciuti cù mudelli di diffusione.
In un certu modu, i mudelli di diffusione sò più precisi in a discrizzione di i fatti.
Mentre chì un GAN piglia cum'è un rumore aleatoriu di input o una variabile di condizionamentu di classa è pruduce un sample realistu, i mudelli di diffusione sò spessu più lenti, iterativi, è necessitanu assai più guida.
Ùn ci hè micca assai spaziu per l'errore quandu u denoising hè appiicatu ripetutamente cù u scopu di vultà à l'imagine originale da u rumore.
Ogni puntu di cuntrollu hè passatu per tutta a tappa di creazione, è cù ogni passu, a stampa puderia acquistà più è più infurmazione.
cunchiusioni
In cunclusione, a causa di un pocu di ricerca significativa chì hè stata publicata solu in l'anni 2020 è 2021, i mudelli di diffusione ponu avà superà i GAN in termini di sintesi di stampa.
Quist'annu, OpenAI hà lanciatu DALL-E2, Un mudellu di pruduzzione di l'imaghjini chì permette à i pratichi di impiegà mudelli di diffusione.
Ancu se i GAN sò d'avanguardia, e so limitazioni facenu sfida à scala è aduprà in novi cuntesti.
Per ottene una qualità di mostra GAN-like usendu mudelli basati in probabilità, assai travagliu hè statu fattu.
Lascia un Audiolibro