일반적으로 GAN, VAE 및 자기회귀 모델과 같은 심층 생성 모델은 이미지 합성 문제를 처리합니다.
생성된 적대적 네트워크(GAN)가 생성하는 데이터의 고품질을 감안할 때 최근 몇 년 동안 많은 관심을 받았습니다.
확산 모델은 그 자체로 확립된 또 다른 매혹적인 연구 분야입니다. 이미지, 비디오 및 음성 생성 분야는 둘 다에 대한 광범위한 사용을 발견했습니다.
확산 모델 대 GAN: 어느 것이 더 나은 결과를 낳습니까? 당연히 이는 지속적인 논의로 이어졌습니다.
GAN으로 알려진 계산 아키텍처에서 두 가지 신경망 정품 데이터를 전달할 수 있는 새로 합성된 데이터 인스턴스를 생성하기 위해 서로 싸웁니다.
확산 모델은 음악 및 그래픽 제작을 위한 교육 안정성과 높은 결과를 제공하기 때문에 점점 더 인기를 얻고 있습니다.
이 기사에서는 확산 모델과 GAN을 자세히 살펴보고 서로 어떻게 다른지 그리고 몇 가지 다른 점을 살펴봅니다.
그렇다면 생성적 적대 신경망이란 무엇입니까?
실제 데이터로 오인될 수 있는 새로운 인공적인 데이터 인스턴스를 생성하기 위해 생성적 적대 네트워크(GAN)는 두 개의 신경망을 사용하여 서로 경쟁합니다(따라서 이름에서 "적대").
그들은 연설, 비디오 및 사진 제작에 광범위하게 활용됩니다.
GAN의 목표는 특정 데이터 세트에서 이전에 발견되지 않은 데이터를 생성하는 것입니다. 샘플에서 식별되지 않은 실제 기본 데이터 분포의 모델을 추론하려고 시도하면 이렇게 됩니다.
또는 이러한 네트워크는 특정 통계 분포를 학습하려고 시도하는 암시적 모델입니다.
이 목표를 달성하는 방법을 발견하기 위해 GAN이 사용한 방법은 참신했습니다. 실제로 그들은 암시적 모델을 개발하기 위해 XNUMX인용 게임을 하여 데이터를 생성합니다.
다음은 구조를 설명합니다.
- 진짜 데이터와 가짜 데이터를 구별하는 능력을 얻는 Discriminator
- 데이터를 생성하는 새로운 방법을 선택하는 생성기는 판별기를 속일 수 있습니다.
판별자는 신경망으로 포즈를 취합니다. 따라서 생성기는 이를 속이기 위해 고품질의 그림을 생성해야 합니다.
이러한 생성기가 출력 분포를 사용하여 훈련되지 않는다는 사실은 오토인코더 모델과 다른 모델 간의 중요한 차이점입니다.
모델의 손실 함수를 분해하는 두 가지 방법이 있습니다.
- 판별자가 실제 데이터를 정확하게 예측하는지 수량화하는 기능
- 생성된 데이터는 부분적으로 정확하게 예측됩니다.
가능한 최상의 판별자에서 이 손실 함수는 다음과 같이 최소화됩니다.
따라서 일반 모델은 거리 최소화 모델로 생각할 수 있으며, 판별자가 이상적일 경우 실제 분포와 생성된 분포 사이의 발산 최소화로 생각할 수 있습니다.
실제로, 다양한 분기가 사용되어 다양한 GAN 훈련 방법이 생성될 수 있습니다.
GAN의 손실 함수를 조정하는 것이 간단함에도 불구하고 생성자와 판별자 사이의 트레이드오프를 포함하는 학습 역학은 따르기가 어렵습니다.
학습이 수렴된다는 보장도 없습니다. 결과적으로 GAN 모델을 훈련하는 것은 어렵습니다. 그 이유는 (생성된 샘플에 다양성이 없을 때) 기울기가 사라지고 모드 붕괴와 같은 문제가 발생하는 것이 일반적이기 때문입니다.
이제 확산 모델의 시간입니다.
GAN의 훈련 수렴 문제는 확산 모델의 개발을 통해 해결되었습니다.
이 모델은 확산 과정이 잡음의 점진적 간섭(확산 과정의 모든 단계에서 가우스 잡음이 추가됨)으로 인한 정보 손실과 동일하다고 가정합니다.
이러한 모델의 목적은 노이즈가 샘플에 있는 정보에 어떤 영향을 미치는지, 또는 다르게 말하면 확산으로 인해 손실되는 정보의 양을 결정하는 것입니다.
모델이 이를 파악할 수 있다면 원본 샘플을 검색하고 발생한 정보 손실을 취소할 수 있어야 합니다.
이것은 잡음 제거 확산 모델을 통해 수행됩니다. 순방향 확산 프로세스와 역 확산 프로세스는 두 단계를 구성합니다.
순방향 확산 과정은 데이터가 잡음으로 완전히 오염될 때까지 점진적으로 가우시안 잡음을 추가하는 과정(확산 과정)을 포함한다.
신경망은 이후에 역확산 방법을 사용하여 훈련되어 잡음을 역전시키는 조건부 분포 확률을 학습합니다.
여기에서 에 대해 더 많이 이해할 수 있습니다. 확산 모델.
확산 모델 대 GAN
확산 모델과 마찬가지로 GAN은 노이즈에서 사진을 생성합니다.
모델은 클래스 레이블 또는 텍스트 인코딩과 같은 일부 유익한 조건화 변수의 노이즈로 시작하는 생성기 신경망으로 구성됩니다.
그러면 결과는 사실적인 이미지와 유사해야 합니다.
사실적이고 충실한 사진 생성을 위해 GAN을 사용합니다. 확산 모델을 사용하여 GAN보다 훨씬 사실적인 시각 효과가 생성됩니다.
어떤 면에서는 확산 모델이 사실을 설명하는 데 더 정확합니다.
GAN이 입력 랜덤 노이즈 또는 클래스 컨디셔닝 변수로 실제 샘플을 출력하는 동안 확산 모델은 종종 더 느리고 반복적이며 훨씬 더 많은 지침이 필요합니다.
노이즈에서 원래 이미지로 되돌리기 위해 노이즈 제거를 반복적으로 적용하면 오류의 여지가별로 없습니다.
각 체크포인트는 생성 단계 전반에 걸쳐 통과되며 각 단계에서 그림은 점점 더 많은 정보를 얻을 수 있습니다.
결론
결론적으로, 2020년대와 2021년에만 발표된 몇 가지 중요한 연구로 인해 확산 모델은 이제 사진 합성 측면에서 GAN을 능가할 수 있습니다.
올해 오픈AI 런칭 달-이 2, 실무자가 확산 모델을 사용할 수 있도록 하는 이미지 생성 모델.
GAN은 최첨단이지만 제약으로 인해 새로운 컨텍스트에서 확장하고 사용하기가 어렵습니다.
우도 기반 모델을 사용하여 GAN과 같은 샘플 품질을 달성하기 위해 많은 작업이 수행되었습니다.
댓글을 남겨주세요.