İçindekiler[Saklamak][Göstermek]
Büyük olasılıkla bir bilgisayarın bir resmi tanımlayabileceğinin farkındasınızdır.
Örneğin, çocuklarınızla oynayan bir köpeğin resmi, 'köpek ve bahçedeki çocuklar' olarak çevrilebilir. Ama şimdi bunun tersinin de mümkün olduğunu biliyor muydunuz? Bazı kelimeler yazıyorsunuz ve makine yeni bir resim oluşturuyor.
Mevcut fotoğrafları arayan bir Google aramasının aksine, bunların hepsi yeni. Son yıllarda OpenAI, çarpıcı sonuçlar bildiren lider kuruluşlardan biri olmuştur.
Algoritmalarını büyük metin ve resim veritabanları üzerinde eğitiyorlar. Yüz milyonlarca fotoğraf üzerinde eğitilmiş GLIDE görüntü modelleri hakkında bir makale yayınladılar. Fotogerçekçilik açısından, önceki 'DALL-E' modellerinden daha iyi performans gösteriyor.
Bu yazıda, metin kılavuzlu difüzyon modelleriyle fotogerçekçi resimler üretmeyi ve değiştirmeyi amaçlayan birkaç büyüleyici girişimden biri olan OpenAI'nin GLIDE'sine bakacağız. Hadi başlayalım.
Nedir AI Glide'ı açın?
Çoğu görüntü kelimelerle tanımlanabilse de, metin girişlerinden görüntüler oluşturmak, uzmanlık bilgisi ve önemli miktarda zaman gerektirir.
Bir AI aracısının doğal dil komutlarından fotogerçekçi resimler üretmesine izin vermek, insanların yalnızca benzersiz bir kolaylıkla zengin ve çeşitli görsel materyaller oluşturmasına izin vermekle kalmaz, aynı zamanda oluşturulan görüntülerin daha basit yinelemeli iyileştirmesine ve ince taneli kontrolüne izin verir.
GLIDE, yeni nesneler eklemek, gölgeler ve yansımalar oluşturmak, gerçekleştirmek için doğal dildeki metin istemlerini kullanarak mevcut fotoğrafları düzenlemek için kullanılabilir. resim iç boyamaVe benzeri.
Ayrıca temel çizgi çizimlerini fotogerçekçi fotoğraflara dönüştürebilir ve karmaşık durumlar için olağanüstü sıfır numune üretim ve onarım yeteneklerine sahiptir.
Son araştırmalar, olabilirliğe dayalı difüzyon modellerinin, özellikle çeşitlilik ve aslına uygunluğu dengeleyen bir kılavuz yaklaşımla birleştirildiğinde, yüksek kaliteli sentetik resimler üretebileceğini göstermiştir.
OpenAI bir yayınladı güdümlü difüzyon modeli difüzyon modellerinin bir sınıflandırıcının etiketlerine bağlı olmasına izin veren Mayıs ayında. GLIDE, metin koşullu görüntü oluşturma sorununa kılavuzlu difüzyon getirerek bu başarıyı geliştirir.
Araştırmacılar, doğal dil açıklamalarını koşullandırmak için bir metin kodlayıcı kullanarak 3.5 milyar parametreli bir GLIDE difüzyon modelini eğittikten sonra, iki alternatif yönlendirme stratejisini test etti: CLIP rehberliği ve sınıflandırıcı içermeyen rehberlik.
CLIP, bir görüntünün altyazıya ne kadar yakın olduğuna bağlı olarak bir puan veren, metin ve resimlerin ortak temsillerini öğrenmek için ölçeklenebilir bir tekniktir.
Ekip, bu stratejiyi, sınıflandırıcıyı modelleri "yönlendiren" bir CLIP modeliyle değiştirerek difüzyon modellerinde kullandı. Bu arada, sınıflandırıcı içermeyen rehberlik, ayrı bir sınıflandırıcının eğitimini içermeyen difüzyon modellerini yönlendirmek için bir stratejidir.
GLIDE Mimarisi
GLIDE mimarisi üç bileşenden oluşur: 64 × 64 görüntü oluşturmak üzere eğitilmiş bir Ablate Difüzyon Modeli (ADM), bir metin istemi aracılığıyla görüntü oluşturmayı etkileyen bir metin modeli (dönüştürücü) ve küçük 64 × 64'ümüzü dönüştüren bir üst örnekleme modeli. görüntüleri daha yorumlanabilir 256 x 256 piksele dönüştürür.
İlk iki bileşen, metin istemini uygun şekilde yansıtması için resim oluşturma sürecini kontrol etmek için birlikte çalışır, ikincisi ise oluşturduğumuz görüntülerin daha kolay anlaşılmasını sağlamak için gereklidir. GLIDE projesi, bir 2021 yılında yayınlanan rapor Bu, ADM tekniklerinin, resim örneği kalitesi açısından şu anda popüler olan, son teknoloji ürünü üretici modellerden daha iyi performans gösterdiğini gösterdi.
ADM için, GLIDE yazarları, Dhariwal ve Nichol ile aynı ImageNet 64 x 64 modelini kullandı, ancak 512 yerine 64 kanallı. Bunun sonucu olarak ImageNet modeli kabaca 2.3 milyar parametreye sahip.
GLIDE ekibi, Dhariwal ve Nichol'den farklı olarak, resim oluşturma süreci üzerinde daha fazla doğrudan kontrole sahip olmak istediler, böylece görsel modeli, dikkati etkinleştiren bir dönüştürücü ile birleştirdiler. GLIDE, metin giriş komutlarını işleyerek size resim üreten süreç çıktısı üzerinde bir miktar kontrol sağlar.
Bu, transformatör modelinin uygun şekilde büyük bir fotoğraf ve başlık veri kümesi üzerinde eğitilmesiyle gerçekleştirilir (DALL-E projesinde kullanılana benzer).
Metin, koşullandırmak için başlangıçta bir dizi K belirteci olarak kodlanır. Bundan sonra jetonlar bir transformatör modeline yüklenir. Transformatörün çıkışı daha sonra iki şekilde kullanılabilir. ADM modeli için, sınıf gömme yerine nihai belirteç gömme kullanılır.
İkinci olarak, belirteç yerleştirmelerinin son katmanı – bir dizi özellik vektörü – ADM modelindeki her bir dikkat katmanının boyutlarına bağımsız olarak yansıtılır ve her dikkat bağlamıyla birleştirilir.
Gerçekte, bu, ADM modelinin, girdi sözcükleri ve bunlarla ilgili görüntülerin öğrenilmiş kavrayışına dayalı olarak, benzersiz ve fotogerçekçi bir tarzda, benzer metin belirteçlerinin yeni kombinasyonlarından bir resim üretmesini sağlar. Bu metin kodlama dönüştürücü 1.2 milyar parametre içerir ve 24 genişliğinde 2048 artık blok kullanır.
Son olarak, üst örnekleyici difüzyon modeli yaklaşık 1.5 milyar parametre içerir ve temel modelden farklılık gösterir, çünkü metin kodlayıcısı, temel modele kıyasla 1024 ve 384 temel kanal genişliğinde daha küçüktür. Bu model, adından da anlaşılacağı gibi, hem makineler hem de insanlar için yorumlanabilirliği geliştirmek için örneğin yükseltilmesine yardımcı olur.
difüzyon modeli
GLIDE, ADM'nin kendi versiyonunu ("kılavuzlu" için ADM-G) kullanarak görüntüler oluşturur. ADM-G modeli, difüzyon U-net modelinin bir modifikasyonudur. Bir difüzyon U-net modeli, VAE, GAN ve transformatörler gibi daha yaygın görüntü sentez tekniklerinden önemli ölçüde farklıdır.
Verilere kademeli olarak rastgele gürültü enjekte etmek için bir Markov difüzyon adımları zinciri oluştururlar ve ardından difüzyon sürecini tersine çevirmeyi ve yalnızca gürültüden gerekli veri örneklerini yeniden oluşturmayı öğrenirler. İki aşamada çalışır: ileri ve geri difüzyon.
Numunenin gerçek dağılımından bir veri noktası verilen ileri difüzyon yöntemi, önceden ayarlanmış bir dizi adım boyunca numuneye küçük bir miktar gürültü ekler. Adımların boyutu arttıkça ve sonsuza yaklaştıkça, örnek tüm tanınabilir özelliklerini kaybeder ve dizi izotropik bir Gauss eğrisine benzemeye başlar.
Geri difüzyon sırasında faz, difüzyon modeli resimlere eklenen gürültünün etkisini tersine çevirmeyi ve orijinal girdi örnek dağılımına benzemeye çalışarak üretilen görüntüyü orijinal şekline geri döndürmeyi öğrenir.
Tamamlanmış bir model, gerçek bir Gauss gürültü girişi ve bir komut istemi ile bunu yapabilir. ADM-G yöntemi, CLIP veya özelleştirilmiş bir transformatör gibi bir modelin, girilen metin istemi belirteçlerini kullanarak geriye doğru yayılma aşamasını etkilemesi bakımından öncekinden farklıdır.
Kayma yetenekleri
1. Görüntü Üretimi
GLIDE'nin en popüler ve yaygın olarak kullanılan kullanımı muhtemelen görüntü sentezi olacaktır. Resimler mütevazı olsa da ve GLIDE hayvan/insan formlarında zorluk çekse de, tek seferlik görüntü üretimi potansiyeli neredeyse sonsuzdur.
Hayvanların, ünlülerin, manzaraların, binaların ve çok daha fazlasının fotoğraflarını oluşturabilir ve bunu çeşitli sanat tarzlarında ve fotogerçekçi olarak yapabilir. Araştırmacıların yazarları, aşağıdaki örneklerde görüldüğü gibi, GLIDE'nin çok çeşitli metinsel girdileri görsel bir formatta yorumlama ve uyarlama yeteneğine sahip olduğunu iddia ediyor.
2. Kaydırarak boyama
GLIDE'ın otomatik fotoğraf içi boyaması, tartışmasız en büyüleyici kullanımdır. GLIDE, mevcut bir resmi girdi olarak alabilir, değiştirilmesi gereken yerler için metin istemini göz önünde bulundurarak işleyebilir ve ardından bu parçalarda kolaylıkla aktif değişiklikler yapabilir.
Daha da iyi sonuçlar elde etmek için SDEdit gibi bir düzenleme modeliyle birlikte kullanılmalıdır. Gelecekte, bunun gibi özelliklerden yararlanan uygulamalar, kodsuz resim değiştiren yaklaşımlar geliştirmede çok önemli olabilir.
Sonuç
Artık bu süreçten geçtiğimize göre, GLIDE'ın nasıl çalıştığının temellerini ve ayrıca resim oluşturma ve görüntü içi değiştirme yeteneklerinin genişliğini kavramanız gerekir.
Yorum bırak