Muhtemelen yeni bir üretken AI devriminin başlangıcındayız.
Üretken yapay zeka, içerik oluşturabilen algoritmaları ve modelleri ifade eder. Bu tür modellerin çıktısı, genellikle gerçek insan çıktısı sanılabilecek metin, ses ve görüntüleri içerir.
Gibi uygulamalar ChatGPT üretken yapay zekanın yalnızca bir yenilik olmadığını gösterdiler. AI artık ayrıntılı talimatları takip edebiliyor ve dünyanın nasıl çalıştığına dair derin bir anlayışa sahip görünüyor.
Ama bu noktaya nasıl geldik? Bu kılavuzda, bu yeni ve heyecan verici üretken AI devriminin yolunu açan AI araştırmasındaki bazı önemli atılımları inceleyeceğiz.
Sinir Ağlarının Yükselişi
Modern AI'nın kökenlerini araştırmaya kadar takip edebilirsiniz. derin öğrenme ve sinir ağları 2012 içinde.
O yıl, Toronto Üniversitesi'nden Alex Krizhevsky ve ekibi, nesneleri sınıflandırabilen son derece hassas bir algoritma elde etmeyi başardı.
The son teknoloji sinir ağıArtık AlexNet olarak bilinen , ImageNet görsel veritabanındaki nesneleri ikinciden çok daha düşük bir hata oranıyla sınıflandırabildi.
Nöral ağlar bazı eğitim verilerine dayalı olarak belirli bir davranışı öğrenmek için matematiksel işlevlerden oluşan bir ağ kullanan algoritmalardır. Örneğin, modeli kanser gibi bir hastalığı teşhis edecek şekilde eğitmek için bir sinir ağı tıbbi verilerini besleyebilirsiniz.
Umut, sinir ağının yavaş yavaş verilerdeki kalıpları bulması ve yeni veriler verildiğinde daha doğru hale gelmesidir.
AlexNet çığır açan bir uygulamaydı. evrişimli sinir ağı veya CNN'ler. "Evrişimli" anahtar kelime, birbirine daha yakın olan verilere daha fazla vurgu yapan evrişimli katmanların eklenmesini ifade eder.
CNN'ler 1980'lerde zaten bir fikir olsa da, popülerlik kazanmaya ancak 2010'ların başlarında en son GPU teknolojisi teknolojiyi yeni zirvelere taşıdığında başladı.
CNN'lerin başarısı, Bilgisayar görüşü sinir ağları araştırmalarına daha fazla ilgi duymasına neden oldu.
Google ve Facebook gibi teknoloji devleri, kendi AI çerçevelerini halka sunmaya karar verdi. gibi üst düzey API'ler keras kullanıcılara derin sinir ağlarıyla deney yapmaları için kullanıcı dostu bir arayüz sağladı.
CNN'ler görüntü tanıma ve video analizinde harikaydı, ancak iş dil tabanlı sorunları çözmeye geldiğinde sorun yaşıyorlardı. Doğal dil işlemedeki bu sınırlama, görüntülerin ve metnin gerçekte nasıl temelde farklı sorunlar olduğu için var olabilir.
Örneğin, bir görüntünün trafik ışığı içerip içermediğini sınıflandıran bir modeliniz varsa, söz konusu trafik ışığı görüntünün herhangi bir yerinde görünebilir. Ancak, bu tür bir müsamaha dilde pek işe yaramıyor. “Bob balık yedi” cümlesi ile “Balık Bob yedi” cümlesi, aynı kelimeleri kullanmalarına rağmen çok farklı anlamlara sahiptir.
Araştırmacıların insan dilini içeren sorunları çözmek için yeni bir yaklaşım bulmaları gerektiği ortaya çıktı.
Transformers her şeyi değiştirir
2017 olarak, hiç Araştırma kağıdı “İhtiyacınız Olan Tek Şey Dikkat” başlıklı yeni bir ağ türü önerdi: Transformer.
CNN'ler bir görüntünün küçük bölümlerini art arda filtreleyerek çalışırken, dönüştürücüler verideki her öğeyi diğer her öğeye bağlar. Araştırmacılar bu süreci “öz-dikkat” olarak adlandırıyorlar.
Cümleleri ayrıştırmaya çalışırken, CNN'ler ve dönüştürücüler çok farklı çalışır. Bir CNN, birbirine yakın kelimelerle bağlantı kurmaya odaklanırken, bir dönüştürücü, bir cümledeki her bir kelime arasında bağlantılar kuracaktır.
Kendine dikkat süreci, insan dilini anlamanın ayrılmaz bir parçasıdır. Uzaklaştırarak ve tüm cümlenin nasıl bir araya geldiğine bakarak, makineler cümlenin yapısını daha net anlayabilir.
İlk trafo modelleri piyasaya sürüldüğünde, araştırmacılar kısa süre sonra internette bulunan inanılmaz miktarda metin verisinden yararlanmak için yeni mimariyi kullandılar.
GPT-3 ve İnternet
2020'de OpenAI'ler GPT 3 model, transformatörlerin ne kadar etkili olabileceğini gösterdi. GPT-3, bir insandan neredeyse ayırt edilemez görünen bir metin çıktısı verebildi. GPT-3'ü bu kadar güçlü yapan şeylerden biri, kullanılan eğitim verilerinin miktarıydı. Modelin eğitim öncesi veri setinin çoğu, 400 milyardan fazla jetonla gelen Common Crawl olarak bilinen bir veri setinden gelir.
GPT-3'ün gerçekçi insan metni oluşturma yeteneği kendi başına çığır açarken, araştırmacılar aynı modelin diğer görevleri nasıl çözebileceğini keşfettiler.
Örneğin, bir tweet oluşturmak için kullanabileceğiniz aynı GPT-3 modeli, metni özetlemenize, bir paragrafı yeniden yazmanıza ve bir hikayeyi bitirmenize de yardımcı olabilir. Dil modelleri o kadar güçlü hale geldiler ki, artık her türlü komutu izleyen genel amaçlı araçlar haline geldiler.
GPT-3'ün genel amaçlı doğası, şu tür uygulamalara olanak sağlamıştır: GitHub Yardımcı Pilot, bu, programcıların düz İngilizceden çalışma kodu oluşturmasına olanak tanır.
Difüzyon Modelleri: Metinden Görüntülere
Transformatörler ve NLP ile kaydedilen ilerleme, diğer alanlarda da üretken yapay zekanın yolunu açtı.
Bilgisayar görüşü alanında, derin öğrenmenin makinelerin görüntüleri anlamasına nasıl olanak tanıdığını zaten ele almıştık. Bununla birlikte, yapay zekanın görüntüleri yalnızca sınıflandırmak yerine kendilerinin oluşturması için bir yol bulmamız gerekiyordu.
DALL-E 2, Stable Diffusion ve Midjourney gibi üretken görüntü modelleri, metin girdisini görüntülere dönüştürebildikleri için popüler hale geldi.
Bu görüntü modelleri iki temel özelliğe dayanır: görüntüler ve metin arasındaki ilişkiyi anlayan bir model ve girdiyle eşleşen yüksek tanımlı bir görüntü oluşturabilen bir model.
OpenAI en CLIP (Contrastive Language–Image Pre-training), ilk yönü çözmeyi amaçlayan açık kaynaklı bir modeldir. Bir görüntü verildiğinde, CLIP modeli söz konusu görüntü için en alakalı metin tanımını tahmin edebilir.
CLIP modeli, önemli görüntü özelliklerinin nasıl çıkarılacağını ve görüntünün daha basit bir temsilinin nasıl oluşturulacağını öğrenerek çalışır.
Kullanıcılar DALL-E 2'ye örnek bir metin girişi sağladığında, giriş, CLIP modeli kullanılarak bir "görüntü yerleştirmeye" dönüştürülür. Şimdi amaç, oluşturulan görüntü gömme ile eşleşen bir görüntü oluşturmanın bir yolunu bulmaktır.
En yeni üretken görüntü yapay zekaları, difüzyon modeli aslında bir görüntü oluşturma görevinin üstesinden gelmek için. Difüzyon modelleri, görüntülerden eklenen gürültünün nasıl giderileceğini bilmek için önceden eğitilmiş sinir ağlarına dayanır.
Bu eğitim sürecinde, sinir ağı sonunda rastgele bir gürültü görüntüsünden yüksek çözünürlüklü bir görüntünün nasıl oluşturulacağını öğrenebilir. Halihazırda CLIP tarafından sağlanan metin ve görüntülerin bir eşlemesine sahip olduğumuz için, difüzyon modeli eğitmek herhangi bir görüntüyü oluşturmak için bir süreç oluşturmak üzere CLIP görüntü yerleştirmelerinde.
Üretken Yapay Zeka Devrimi: Sırada ne var?
Artık üretken yapay zekadaki atılımların birkaç günde bir gerçekleştiği bir noktadayız. Yapay zeka kullanarak farklı medya türleri oluşturmak giderek daha kolay hale gelirken, bunun toplumumuzu nasıl etkileyeceği konusunda endişelenmeli miyiz?
Buhar makinesinin icadından bu yana makinelerin işçileri değiştirme endişesi her zaman gündemde olsa da, bu sefer biraz farklı görünüyor.
Üretken yapay zeka, yapay zekanın devralınmasına karşı güvenli kabul edilen sektörleri bozabilecek çok amaçlı bir araç haline geliyor.
AI birkaç temel talimattan kusursuz kod yazmaya başlayabilirse programcılara ihtiyacımız olacak mı? İnsanlar, istedikleri çıktıyı daha ucuza üretmek için üretken bir model kullanabilirlerse yaratıcıları işe alacaklar mı?
Üretken AI devriminin geleceğini tahmin etmek zor. Ancak artık figüratif Pandora'nın kutusu açıldığına göre, teknolojinin dünya üzerinde olumlu bir etki bırakabilecek daha heyecan verici yeniliklere izin vermesini umuyorum.
Yorum bırak