Em geral, modelos generativos profundos como GANs, VAEs e modelos autorregressivos lidam com problemas de síntese de imagens.
Dada a alta qualidade dos dados que eles criam, as redes generativas de adversários (GANs) receberam muita atenção nos últimos anos.
Os modelos de difusão são outro campo de estudo fascinante que se estabeleceu. Os campos de geração de imagem, vídeo e voz encontraram amplo uso para ambos.
Modelos de difusão versus GANs: o que produz melhores resultados? Naturalmente, isso levou a uma discussão contínua.
Na arquitetura computacional conhecida como GAN, dois redes neurais são lutados uns contra os outros para produzir instâncias recém-sintetizadas de dados que podem passar por dados genuínos.
Os modelos de difusão estão se tornando cada vez mais populares, pois proporcionam estabilidade de treinamento e altos resultados para produção de música e gráficos.
Este artigo abordará o modelo de difusão e as GANs em detalhes, bem como como elas diferem umas das outras e algumas outras coisas.
Então, o que são Redes Adversariais Generativas?
Para criar novas instâncias artificiais de dados que podem ser confundidos com dados genuínos, as redes generativas de adversários (GANs) empregam duas redes neurais e as colocam uma contra a outra (daí o “adversário” no nome).
Eles são amplamente utilizados para criação de fala, vídeo e imagem.
O objetivo do GAN é criar dados não descobertos anteriormente a partir de um conjunto de dados específico. A tentativa de inferir um modelo da distribuição de dados subjacente real e não identificada das amostras faz isso.
Alternativamente dito, essas redes são modelos implícitos que tentam aprender uma distribuição estatística específica.
O método GAN usado para descobrir como atingir esse objetivo era novo. Na verdade, eles produzem dados jogando um jogo de dois jogadores para desenvolver um modelo implícito.
O seguinte descreve a estrutura:
- um discriminador que ganha a capacidade de diferenciar entre dados autênticos e falsos
- um gerador que pega novas maneiras de criar dados pode enganar o discriminador.
O discriminador se apresenta como uma rede neural. Portanto, o gerador precisa criar uma imagem com alta qualidade para enganá-lo.
O fato de esses geradores não serem treinados usando qualquer distribuição de saída é uma distinção significativa entre modelos de autoencoder e outros modelos.
Existem duas maneiras de decompor a função de perda do modelo:
- a capacidade de quantificar se o discriminador prevê com precisão dados reais
- os dados gerados são previstos com precisão por uma parte.
No melhor discriminador viável, esta função de perda é então minimizada:
Modelos genéricos podem, portanto, ser pensados como modelos de minimização de distância e, se o discriminador for ideal, como minimização de divergência entre a distribuição verdadeira e a produzida.
Na realidade, diferentes divergências podem ser empregadas e resultar em vários métodos de treinamento de GAN.
As dinâmicas de aprendizado, que incluem um trade-off entre o gerador e o discriminador, são difíceis de acompanhar, apesar de ser simples ajustar a função de perda das GANs.
Também não há garantias de que a aprendizagem irá convergir. Como resultado, treinar um modelo GAN é difícil, pois é comum encontrar problemas como desaparecimento de gradientes e colapso de modo (quando não há diversidade nas amostras geradas).
Agora, é hora dos Modelos de Difusão
O problema da convergência de formação das GANs tem sido abordado através do desenvolvimento de modelos de difusão.
Esses modelos assumem que um processo de difusão é equivalente à perda de informação provocada pela interferência progressiva do ruído (um ruído gaussiano é adicionado a cada passo do processo de difusão).
O objetivo de tal modelo é determinar como o ruído afeta a informação presente na amostra, ou, dito de outra forma, quanta informação é perdida devido à difusão.
Se um modelo pode descobrir isso, ele deve ser capaz de recuperar a amostra original e desfazer a perda de informação que ocorreu.
Isto é conseguido através de um modelo de difusão de denoising. Um processo de difusão direta e um processo de difusão reversa compõem as duas etapas.
O processo de difusão direta envolve a adição gradual de ruído gaussiano (ou seja, o processo de difusão) até que os dados sejam completamente contaminados pelo ruído.
A rede neural é posteriormente treinada usando o método de difusão reversa para aprender as probabilidades de distribuição condicional para reverter o ruído.
Aqui você pode entender mais sobre o modelo de difusão.
Modelo de difusão vs GANs
Como um modelo de difusão, as GANs produzem imagens a partir do ruído.
O modelo é composto por uma rede neural geradora, que se inicia com o ruído de alguma variável condicionante informativa, como um rótulo de classe ou uma codificação de texto.
O resultado deve então ser algo que se assemelhe a uma imagem realista.
Para criar gerações de imagens fotorrealistas e de alta fidelidade, empregamos GANs. Visuais ainda mais realistas do que GANs são produzidos usando modelos de difusão.
De certa forma, os modelos de difusão são mais precisos na descrição dos fatos.
Enquanto um GAN recebe como entrada um ruído aleatório ou uma variável de condicionamento de classe e produz uma amostra realista, os modelos de difusão geralmente são mais lentos, iterativos e precisam de muito mais orientação.
Não há muito espaço para erros quando o denoising é aplicado repetidamente com o objetivo de retornar à imagem original do ruído.
Cada ponto de verificação é passado por todo o estágio de criação e, a cada etapa, a imagem pode ganhar mais e mais informações.
Conclusão
Em conclusão, devido a poucas pesquisas significativas que foram publicadas apenas nas décadas de 2020 e 2021, os modelos de difusão agora podem superar os GANs em termos de síntese de imagens.
Este ano, o OpenAI lançou DALL-E2, um modelo de produção de imagens que permite aos profissionais empregar modelos de difusão.
Embora as GANs sejam de ponta, suas restrições tornam difícil dimensioná-las e usá-las em novos contextos.
Para alcançar uma qualidade de amostra semelhante à GAN usando modelos baseados em probabilidade, muito trabalho foi feito.
Deixe um comentário