目錄[隱藏][顯示]
一般來說,像 GAN、VAE 和自回歸模型這樣的深度生成模型可以處理圖像合成問題。
鑑於它們創建的數據質量很高,生成對抗網絡(GAN)近年來受到了很多關注。
擴散模型是另一個已經確立的引人入勝的研究領域。 圖像、視頻和語音生成領域都得到了廣泛的應用。
擴散模型與 GAN:哪個產生更好的結果? 自然,這引發了持續的討論。
在稱為 GAN 的計算架構中,有兩個 神經網絡 相互競爭以生成新合成的數據實例,這些實例可以傳遞為真實數據。
擴散模型越來越受歡迎,因為它們為製作音樂和圖形提供了訓練穩定性和高結果。
本文將詳細介紹擴散模型和 GAN,以及它們之間的區別以及其他一些事情。
那麼,什麼是生成對抗網絡?
為了創建可能被誤認為是真實數據的新的人工數據實例,生成對抗網絡 (GAN) 採用了兩個神經網絡並將它們相互對抗(因此名稱中的“對抗性”)。
它們廣泛用於語音、視頻和圖片創建。
GAN 的目標是從特定數據集中創建以前未被發現的數據。 試圖從樣本中推斷出實際的、未識別的基礎數據分佈的模型,這樣做。
或者說,這些網絡是試圖學習特定統計分佈的隱式模型。
GAN 用來發現如何實現這一目標的方法是新穎的。 事實上,他們通過玩兩人遊戲來開發隱式模型來生成數據。
下面對結構進行說明:
- 能夠區分真實數據和虛假數據的鑑別器
- 採用新方法創建數據的生成器可以欺騙鑑別器。
鑑別器構成一個神經網絡。 因此,生成器需要創建高質量的圖片來欺騙它。
這些生成器沒有使用任何輸出分佈進行訓練這一事實是自動編碼器模型和其他模型之間的顯著區別。
分解模型的損失函數有兩種方式:
- 量化鑑別器是否準確預見真實數據的能力
- 生成的數據由一部分準確預測。
在最佳可行鑑別器上,該損失函數被最小化:
因此,通用模型可以被認為是距離最小化模型,如果判別器是理想的,則可以認為是真實分佈和生成分佈之間的散度最小化。
實際上,可以採用不同的分歧並導致各種 GAN 訓練方法。
儘管調整 GAN 的損失函數很簡單,但學習動態(包括生成器和判別器之間的權衡)很難遵循。
也不能保證學習會收斂。 因此,訓練 GAN 模型很困難,因為通常會遇到梯度消失和模式崩潰等問題(當生成的樣本沒有多樣性時)。
現在,是時候使用擴散模型了
GAN 的訓練收斂問題已通過擴散模型的發展得到解決。
這些模型假設擴散過程等效於由噪聲的漸進乾擾帶來的信息丟失(在擴散過程的每個時間步添加高斯噪聲)。
這種模型的目的是確定噪聲如何影響樣本中存在的信息,或者換句話說,由於擴散而丟失了多少信息。
如果模型能夠解決這個問題,它應該能夠檢索原始樣本並消除發生的信息丟失。
這是通過去噪擴散模型完成的。 正向擴散過程和反向擴散過程構成了這兩個步驟。
前向擴散過程涉及逐漸添加高斯噪聲(即擴散過程),直到數據完全被噪聲污染。
隨後使用反向擴散方法對神經網絡進行訓練,以學習條件分佈概率來反轉噪聲。
在這裡您可以了解更多關於 擴散模型.
擴散模型與 GAN
與擴散模型一樣,GAN 從噪聲中生成圖片。
該模型由一個生成器神經網絡組成,它從一些信息條件變量的噪聲開始,例如類標籤或文本編碼。
結果應該是類似於真實圖像的東西。
為了創建逼真的高保真圖片生成,我們使用了 GAN。 使用擴散模型可以產生比 GAN 更逼真的視覺效果。
在某種程度上,擴散模型更準確地描述了事實。
雖然 GAN 將隨機噪聲或類條件變量作為輸入並輸出真實樣本,但擴散模型通常較慢、迭代且需要更多指導。
當重複應用去噪以從噪聲中恢復到原始圖像時,沒有太大的誤差空間。
每個檢查點貫穿整個創建階段,每一步,圖片可能會獲得越來越多的信息。
結論
總之,由於僅在 2020 年代和 2021 年發表的重要研究很少,擴散模型現在在圖片合成方面可以勝過 GAN。
今年,OpenAI 推出 達爾-E 2,一種圖像製作模型,允許從業者使用擴散模型。
儘管 GAN 是最先進的,但它們的限制使得在新環境中擴展和使用它們具有挑戰性。
為了使用基於似然的模型實現類似 GAN 的樣本質量,已經投入了大量工作。
發表評論