Son yıllarda, derin öğrenme modelleri insan dilini anlamada daha etkili hale geldi.
gibi projeler düşünün GPT 3, artık tüm makaleleri ve web sitelerini oluşturabilen. GitHub yakın zamanda tanıttı GitHub Yardımcı Pilotu, yalnızca ihtiyacınız olan kod türünü açıklayarak tüm kod parçacıkları sağlayan bir hizmet.
OpenAI, Facebook ve Google'daki araştırmacılar, başka bir görevi yerine getirmek için derin öğrenmeyi kullanmanın yolları üzerinde çalışıyorlar: resimlere altyazı eklemek. Milyonlarca giriş içeren büyük bir veri kümesi kullanarak, bazı bilgiler buldular. şaşırtıcı Sonuçlar.
Son zamanlarda, bu araştırmacılar tam tersi bir görevi yerine getirmeye çalıştılar: bir başlıktan görseller yaratmak. Bir açıklamadan tamamen yeni bir görüntü oluşturmak artık mümkün mü?
Bu kılavuz, en gelişmiş metinden görüntüye modellerinden ikisini keşfedecektir: OpenAI'nin DALL-E 2 ve Google'ın Imagen AI. Bu projelerin her biri, bildiğimiz şekliyle toplumu değiştirebilecek çığır açıcı yöntemler getirmiştir.
Ama önce, metinden görüntüye oluşturma ile ne demek istediğimizi anlayalım.
Metinden görüntüye üretim nedir?
Metinden görüntüye modeller bilgisayarların istemlere dayalı olarak yeni ve benzersiz görüntüler oluşturmasına olanak tanır. İnsanlar artık üretmek istedikleri bir görüntünün metin açıklamasını sağlayabilir ve model, bu açıklamaya mümkün olduğunca yakın bir görsel oluşturmaya çalışacaktır.
Makine öğrenimi modelleri, performansı daha da artırmak için resim-başlık çiftlerini içeren büyük veri kümelerinin kullanımından yararlandı.
Çoğu metinden görüntüye modeller bir dönüştürücü dil modeli kullanır istemleri yorumlamak için. Bu model türü bir sinir ağı doğal dilin bağlamını ve anlamsal anlamını öğrenmeye çalışır.
Daha sonra, aşağıdaki gibi üretken modeller difüzyon modelleri ve görüntü sentezi için üretken hasım ağları kullanılır.
DALLE2 nedir?
DALL-E2 OpenAI tarafından Nisan 2022'de piyasaya sürülen bir bilgisayar modelidir. Model, sözcükleri ve cümleleri görüntülerle ilişkilendirmek için milyonlarca etiketli resimden oluşan bir veritabanında eğitilmiştir.
Kullanıcılar, "lazanya yiyen bir kedi" gibi basit bir ifade yazabilir ve DALL-E 2, ifadenin açıklamaya çalıştığı şeye ilişkin kendi yorumunu üretecektir.
DALL-E 2, sıfırdan görüntü oluşturmanın yanı sıra mevcut görüntüleri de düzenleyebilir. Aşağıdaki örnekte, DALL-E bir kanepe eklenmiş bir odanın değiştirilmiş bir görüntüsünü oluşturabildi.
DALL-E 2, OpenAI'nin son birkaç yılda piyasaya sürdüğü benzer projelerden sadece biri. OpenAI'nin GPT-3'ü, farklı stillerde metin oluşturduğu anlaşıldığında haber değeri kazandı.
Şu anda DALL-E 2 hala beta testinde. İlgilenen kullanıcılar kendi bekleme listesi ve erişim için bekleyin.
Nasıl Çalışır?
DALL-E 2'nin sonuçları etkileyici olsa da, hepsinin nasıl çalıştığını merak ediyor olabilirsiniz.
DALL-E 2, OpenAI'nin GPT-3 projesinin çok modlu bir uygulamasının bir örneğidir.
İlk olarak, kullanıcının metin istemi, bilgi istemini bir temsil alanına eşleyen bir metin kodlayıcıya yerleştirilir. DALL-E 2, doğal dilden anlamsal bilgi elde etmek için CLIP (Karşıtlıklı Dil-Görüntü Ön Eğitimi) adlı başka bir OpenAI modelini kullanır.
Daha sonra, olarak bilinen bir model önceki metin kodlamasını bir görüntü kodlamasına eşler. Bu görüntü kodlaması, metin kodlama adımında bulunan anlamsal bilgiyi yakalamalıdır.
Gerçek görüntüyü oluşturmak için DALL-E 2, anlamsal bilgi ve görüntü kodlama ayrıntılarını kullanarak bir görsel oluşturmak için bir görüntü kod çözücü kullanır. OpenAI, programın değiştirilmiş bir sürümünü kullanır. SÜRÜŞ görüntü üretimi gerçekleştirmek için model. GLIDE bir difüzyon modeli görüntüler oluşturmak için.
GLIDE'ın DALL-E 2 modeline eklenmesi, daha fotogerçekçi çıktı sağladı. GLIDE modeli stokastik veya rastgele belirlendiğinden, DALL-E 2 modeli, modeli tekrar tekrar çalıştırarak kolayca varyasyonlar oluşturabilir.
Sınırlamalar
DALL-E 2 modelinin etkileyici sonuçlarına rağmen hala bazı sınırlamalarla karşı karşıya.
Yazım Metni
DALL-E 2'nin metin oluşturmasını sağlamaya çalışan istemler, sözcükleri hecelemede zorluk yaşadığını ortaya koyuyor. Uzmanlar bunun, yazım bilgisinin programın bir parçası olmamasından kaynaklanabileceğini varsaymaktadır. eğitim veri kümesi.
Bileşimsel Akıl Yürütme
Araştırmacılar, DALL-E 2'nin bileşimsel akıl yürütmede hala bazı zorluklar yaşadığını gözlemliyor. Basitçe söylemek gerekirse, model bir görüntünün tek tek yönlerini anlayabilirken, bu yönler arasındaki ilişkileri anlamakta hala sorun yaşıyor.
Örneğin, "mavi küpün üstünde kırmızı küp" istemi verilirse, DALL-E bir mavi küp ve bir kırmızı küp oluşturacak, ancak bunları doğru şekilde yerleştiremeyecektir. Modelin ayrıca belirli sayıda nesnenin çizilmesini gerektiren bilgi istemlerinde zorluk yaşadığı gözlemlenmiştir.
Veri kümesindeki önyargı
İstem başka ayrıntı içermiyorsa, DALL-E'nin beyaz veya Batılı insanları ve ortamları betimlediği gözlemlenmiştir. Bu temsili önyargı, veri setindeki Batı merkezli görüntülerin bolluğu nedeniyle oluşur.
Modelin toplumsal cinsiyet kalıp yargılarını takip ettiği de gözlemlenmiştir. Örneğin, "uçuş görevlisi" istemini yazmak, çoğunlukla kadın uçuş görevlilerinin görüntülerini oluşturur.
Google Imagen AI nedir?
Google'ın Görüntü AI giriş metninden fotogerçekçi görüntüler oluşturmayı amaçlayan bir modeldir. DALL-E'ye benzer şekilde, model ayrıca metni anlamak için dönüştürücü dil modellerini kullanır ve yüksek kaliteli görüntüler oluşturmak için difüzyon modellerinin kullanımına dayanır.
Google, Imagen'in yanı sıra, DrawBench adlı metinden görüntüye modeller için bir kıyaslama yayınladı. DrawBench'i kullanarak, insan değerlendiricilerinin DALL-E 2 dahil diğer modellere göre Imagen çıktısını tercih ettiğini gözlemleyebildiler.
Nasıl Çalışır?
DALL-E'ye benzer şekilde, Imagen önce kullanıcı istemini donmuş bir metin kodlayıcı aracılığıyla gömme bir metne dönüştürür.
Imagen, bir gürültü modelini görüntülere nasıl dönüştüreceğini öğrenen bir difüzyon modeli kullanır. Bu görüntülerin ilk çıktısı düşük çözünürlüklüdür ve daha sonra nihai görüntünün çözünürlüğünü artırmak için süper çözünürlüklü difüzyon modeli olarak bilinen başka bir modelden geçirilir. İlk difüzyon modeli 64×64 piksellik bir görüntü verir ve daha sonra yüksek çözünürlüklü 1024×1024 görüntüye yükseltilir.
Imagen ekibinin araştırmasına göre, yalnızca metin verileri üzerinde eğitilmiş büyük donmuş dil modelleri, metinden görüntüye üretim için hala oldukça etkili metin kodlayıcılardır.
Çalışma aynı zamanda dinamik eşikleme kavramını da tanıtmaktadır. Bu yöntem, görüntüyü oluştururken kılavuz ağırlıklarını artırarak görüntülerin daha fotogerçekçi görünmesini sağlar.
DALE 2'nin Imagen'e Karşı Performansı
Google'ın karşılaştırmasından elde edilen ön sonuçlar, katılımcıların Imagen tarafından oluşturulan görüntüleri DALL-E 2 ve Latent Diffusion ve VQGAN+CLIP gibi diğer metinden görüntüye modellerine tercih ettiğini gösteriyor.
Imagen ekibinden gelen çıktılar, modellerinin DALL-E 2 modelinin bilinen bir zayıflığı olan metin yazımında daha iyi performans gösterdiğini de gösterdi.
Ancak Google, modeli henüz halka açıklamadığından, Google'ın kıyaslamalarının ne kadar doğru olduğu hala görülüyor.
Sonuç
Fotogerçekçi metinden görüntüye modellerin yükselişi tartışmalıdır çünkü bu modeller etik olmayan kullanım için olgunlaşmıştır.
Teknoloji, müstehcen içeriğin yaratılmasına veya dezenformasyon için bir araç olarak yol açabilir. Hem Google'dan hem de OpenAI'den araştırmacılar bunun farkında, bu nedenle bu teknolojilere hâlâ herkes erişemiyor.
Metinden görüntüye modellerin de önemli ekonomik etkileri vardır. DALL-E gibi modeller ana akım haline gelirse, model, fotoğrafçı ve sanatçı gibi meslekler etkilenecek mi?
Şu anda, bu modellerin hala sınırlamaları var. AI tarafından oluşturulan herhangi bir görüntüyü incelemeye almak, kusurlarını ortaya çıkaracaktır. Hem OpenAI hem de Google en etkili modeller için rekabet ederken, gerçekten mükemmel bir çıktının üretilmesi an meselesi olabilir: gerçek şeyden ayırt edilemeyen bir görüntü.
Sizce teknoloji bu kadar ileri gittiğinde ne olacak?
Yorum bırak