İçindekiler[Saklamak][Göstermek]
Genel olarak, GAN'lar, VAE'ler ve otoregresif modeller gibi derin üretici modeller, görüntü sentezi sorunlarını ele alır.
Oluşturdukları verilerin yüksek kalitesi göz önüne alındığında, üretken çekişmeli ağlar (GAN'lar) son yıllarda çok fazla ilgi gördü.
Difüzyon modelleri, kendini kuran bir başka büyüleyici çalışma alanıdır. Görüntü, video ve ses oluşturma alanlarının her ikisi için de geniş kullanım alanı bulmuştur.
Difüzyon modelleri ve GAN'lar: Hangisi Daha İyi Sonuçlar Üretir? Doğal olarak, bu devam eden bir tartışmaya yol açtı.
GAN olarak bilinen hesaplama mimarisinde iki nöral ağlar gerçek veriler için geçebilecek yeni sentezlenmiş veri örnekleri üretmek için birbirleriyle savaşırlar.
Difüzyon modelleri, müzik ve grafik üretimi için eğitim kararlılığı ve yüksek sonuçlar sağladıkları için giderek daha popüler hale geliyor.
Bu makale, difüzyon modeli ve GAN'ların yanı sıra birbirlerinden nasıl farklı olduklarını ve birkaç başka şeyi ayrıntılı olarak inceleyecektir.
Peki, Üretken Düşman Ağları nedir?
Gerçek verilerle karıştırılabilecek yeni, yapay veri örnekleri oluşturmak için, üretici hasım ağları (GAN'lar) iki sinir ağı kullanır ve bunları birbirine karşı karşıya getirir (böylece adındaki "düşman").
Konuşma, video ve resim oluşturma için yaygın olarak kullanılırlar.
GAN'ın amacı, belirli bir veri kümesinden daha önce keşfedilmemiş verileri oluşturmaktır. Örneklerden gerçek, tanımlanamayan temel veri dağılımının bir modelini çıkarmaya çalışmak bunu yapar.
Alternatif olarak, bu ağlar, belirli bir istatistiksel dağılımı öğrenmeye çalışan örtük modellerdir.
GAN'ın bu amaca nasıl ulaşılacağını keşfetmek için kullandığı yöntem yeniydi. Aslında, örtük bir model geliştirmek için iki oyunculu bir oyun oynayarak veri üretirler.
Aşağıdaki yapıyı açıklar:
- gerçek ve sahte veriler arasında ayrım yapma yeteneği kazanan bir Ayırıcı
- veri oluşturmanın yeni yollarını bulan bir üretici, ayrımcıyı kandırabilir.
Ayrımcı bir sinir ağı gibi davranır. Bu nedenle, jeneratörün onu kandırmak için yüksek kalitede bir resim oluşturması gerekir.
Bu üreteçlerin herhangi bir çıktı dağılımı kullanılarak eğitilmemesi, otomatik kodlayıcı modelleri ile diğer modeller arasında önemli bir ayrımdır.
Modelin kayıp fonksiyonunu ayrıştırmanın iki yolu vardır:
- Ayırt edicinin gerçek verileri doğru bir şekilde öngörüp öngörmediğini ölçme yeteneği
- üretilen veriler bir kısım tarafından doğru bir şekilde tahmin edilir.
Mümkün olan en iyi ayırıcıda, bu kayıp fonksiyonu daha sonra minimize edilir:
Bu nedenle genel modeller, mesafe minimizasyon modelleri olarak ve eğer ayırıcı ideal ise, gerçek ve üretilen dağıtım arasındaki sapma minimizasyonu olarak düşünülebilir.
Gerçekte, farklı sapmalar kullanılabilir ve çeşitli GAN eğitim yöntemleriyle sonuçlanabilir.
Jeneratör ve ayrımcı arasında bir ödünleşim içeren öğrenme dinamikleri, GAN'ların kayıp fonksiyonunu ayarlamak basit olmasına rağmen takip etmek zordur.
Ayrıca öğrenmenin yakınsayacağının garantisi de yoktur. Sonuç olarak, kaybolan gradyanlar ve mod çökmesi (oluşturulan örneklerde çeşitlilik olmadığında) gibi sorunlarla karşılaşmak tipik olduğundan, bir GAN modelinin eğitimi zordur.
Şimdi Difüzyon Modelleri zamanı
GAN'ların eğitim yakınsaması sorunu, yayılma modellerinin geliştirilmesi yoluyla ele alınmıştır.
Bu modeller, bir difüzyon sürecinin, gürültünün aşamalı girişiminin neden olduğu bilgi kaybına eşdeğer olduğunu varsayar (difüzyon sürecinin her adımında bir gauss gürültüsü eklenir).
Böyle bir modelin amacı, gürültünün numunede bulunan bilgiyi nasıl etkilediğini veya başka bir deyişle difüzyon nedeniyle ne kadar bilgi kaybolduğunu belirlemektir.
Bir model bunu çözebilirse, orijinal örneği alabilmeli ve meydana gelen bilgi kaybını geri alabilmelidir.
Bu, bir gürültü giderme difüzyon modeli ile gerçekleştirilir. Bir ileri difüzyon süreci ve bir ters difüzyon süreci iki adımı oluşturur.
İleri difüzyon süreci, veriler tamamen gürültüyle kirlenene kadar kademeli olarak Gauss gürültüsünün (yani difüzyon süreci) eklenmesini içerir.
Sinir ağı daha sonra gürültüyü tersine çevirmek için koşullu dağıtım olasılıklarını öğrenmek için ters difüzyon yöntemi kullanılarak eğitilir.
hakkında daha fazlasını buradan anlayabilirsiniz. difüzyon modeli.
Difüzyon Modeli ve GAN'lar
Bir difüzyon modeli gibi, GAN'lar da gürültüden resimler üretir.
Model, sınıf etiketi veya metin kodlaması gibi bazı bilgilendirici koşullandırma değişkenlerinin gürültüsüyle başlayan bir üretici sinir ağından oluşur.
Sonuç daha sonra gerçekçi bir görüntüye benzeyen bir şey olmalıdır.
Fotogerçekçi ve aslına uygun resim nesilleri oluşturmak için GAN'lar kullanıyoruz. Difüzyon modelleri kullanılarak GAN'lardan bile daha gerçekçi görseller üretilir.
Bir bakıma, yayılma modelleri gerçekleri tanımlamada daha doğrudur.
Bir GAN girdi olarak rastgele gürültü veya sınıf koşullandırma değişkeni alıp gerçekçi bir örnek çıktısı verirken, difüzyon modelleri genellikle daha yavaştır, yinelemelidir ve çok daha fazla rehberliğe ihtiyaç duyar.
Gürültüden orijinal görüntüye dönmek amacıyla gürültü giderme art arda uygulandığında hataya pek yer yoktur.
Oluşturma aşaması boyunca her kontrol noktasından geçilir ve her adımda resim daha fazla bilgi kazanabilir.
Sonuç
Sonuç olarak, yalnızca 2020'lerde ve 2021'de yayınlanan birkaç önemli araştırma nedeniyle, difüzyon modelleri artık resim sentezi açısından GAN'lardan daha iyi performans gösterebilir.
Bu yıl, OpenAI başlattı DALL-E2, uygulayıcıların difüzyon modellerini kullanmalarına izin veren bir görüntü üretim modeli.
GAN'lar son teknoloji olmasına rağmen, kısıtlamaları onları yeni bağlamlarda ölçeklendirmeyi ve kullanmayı zorlaştırıyor.
Olabilirlik tabanlı modeller kullanarak GAN benzeri örnek kalitesi elde etmek için çok fazla çalışma yapılmıştır.
Yorum bırak