Son illərdə dərindən öyrənmə modelləri insan dilini başa düşməkdə daha təsirli olmuşdur.
kimi layihələri düşünün GPT-3, indi bütün məqalələr və vebsaytlar yarada bilir. GitHub bu yaxınlarda təqdim etdi GitHub Kopilotu, sadəcə sizə lazım olan kodun növünü təsvir etməklə bütün kod parçalarını təmin edən xidmətdir.
OpenAI, Facebook və Google tədqiqatçıları başqa bir vəzifənin öhdəsindən gəlmək üçün dərin öyrənmə üsullarından istifadə etmək yolları üzərində işləyirlər: şəkillərə başlıq. Milyonlarla girişi olan böyük bir verilənlər bazasından istifadə edərək, bəziləri ilə tanış oldular təəccüblü nəticələr.
Son zamanlar bu tədqiqatçılar əks tapşırığı yerinə yetirməyə çalışıblar: başlıqdan şəkillər yaratmaq. İndi təsvirdən tamamilə yeni bir görüntü yaratmaq mümkündürmü?
Bu bələdçi mətndən-şəklə çevrilən ən qabaqcıl modellərdən ikisini araşdıracaq: OpenAI-nin DALL-E 2 və Google-un Imagen AI. Bu layihələrin hər biri bizim bildiyimiz kimi cəmiyyəti dəyişə biləcək təməlqoyma üsullarını təqdim edib.
Ancaq əvvəlcə mətndən görüntüyə generasiya dedikdə nəyi nəzərdə tutduğumuzu anlayaq.
Mətndən şəkilə nəsil nədir?
Mətndən şəkilə modellər kompüterlərə göstərişlər əsasında yeni və unikal şəkillər yaratmağa imkan verir. İnsanlar indi istehsal etmək istədikləri şəklin mətn təsvirini təqdim edə bilərlər və model bu təsvirə mümkün qədər yaxından uyğun gələn vizual yaratmağa çalışacaq.
Maşın öyrənmə modelləri performansı daha da təkmilləşdirmək üçün təsvir-başlıq cütlərini ehtiva edən böyük verilənlər toplusundan istifadə edib.
Ən çox mətndən şəkilə modellər transformator dili modelindən istifadə edir göstərişləri şərh etmək. Bu tip model a neyron şəbəkə təbii dilin kontekstini və semantik mənasını öyrənməyə çalışır.
Sonrakı kimi generativ modellər diffuziya modelləri və generativ rəqib şəbəkələri təsvir sintezi üçün istifadə olunur.
DALLE 2 nədir?
DALL-E2 OpenAI tərəfindən 2022-ci ilin aprelində buraxılmış kompüter modelidir. Model söz və ifadələri şəkillərlə əlaqələndirmək üçün milyonlarla etiketli şəkillərdən ibarət verilənlər bazasında təlim keçmişdir.
İstifadəçilər “lazanya yeyən pişik” kimi sadə bir ifadə yaza bilər və DALL-E 2 ifadənin təsvir etməyə çalışdığı şeyin öz şərhini yaradacaq.
Sıfırdan şəkillər yaratmaqla yanaşı, DALL-E 2 mövcud şəkilləri də redaktə edə bilər. Aşağıdakı nümunədə, DALL-E əlavə taxt ilə otağın dəyişdirilmiş şəklini yarada bildi.
DALL-E 2 OpenAI-nin son bir neçə ildə buraxdığı bir çox oxşar layihələrdən yalnız biridir. OpenAI-nin GPT-3 müxtəlif üslublu mətnlər yaratmaq kimi göründüyü zaman xəbərə çevrildi.
Hazırda DALL-E 2 hələ də beta sınaq mərhələsindədir. Maraqlanan istifadəçilər qeydiyyatdan keçə bilərlər gözləmə siyahısı və girişi gözləyin.
Bu necə işləyir?
DALL-E 2-nin nəticələri təsir edici olsa da, bunun necə işlədiyini maraqlandıra bilərsiniz.
DALL-E 2 OpenAI-nin GPT-3 layihəsinin multimodal həyata keçirilməsinə nümunədir.
Birincisi, istifadəçinin mətn sorğusu sorğunu təmsil sahəsinə uyğunlaşdıran mətn kodlayıcısına yerləşdirilir. DALL-E 2 təbii dildən semantik məlumat əldə etmək üçün CLIP (Contrastive Language-Image Pre-Training) adlı başqa bir OpenAI modelindən istifadə edir.
Sonra, kimi tanınan bir model əvvəlki mətn kodlamasını şəkil kodlaşdırmasına uyğunlaşdırır. Bu şəkil kodlaşdırması mətn kodlaşdırma addımında tapılan semantik məlumatı tutmalıdır.
Həqiqi təsviri yaratmaq üçün DALL-E 2 semantik məlumat və təsvirin kodlaşdırma təfərrüatlarından istifadə edərək vizual yaratmaq üçün şəkil dekoderindən istifadə edir. OpenAI-in dəyişdirilmiş versiyasından istifadə edir ŞİŞƏ görüntü yaratmaq üçün model. GLIDE a əsaslanır diffuziya modeli şəkillər yaratmaq üçün.
DALL-E 2 modelinə GLIDE-nin əlavə edilməsi daha çox fotorealist çıxışı təmin etdi. GLIDE modeli stoxastik və ya təsadüfi müəyyən edildiyi üçün DALL-E 2 modeli modeli təkrar-təkrar işlətməklə asanlıqla variasiya yarada bilər.
Məhdudiyyətlər
DALL-E 2 modelinin təsirli nəticələrinə baxmayaraq, hələ də bəzi məhdudiyyətlərlə üzləşir.
Orfoqrafiya Mətni
DALL-E 2-ni mətn yaratmağa çalışan göstərişlər onun sözlərin yazılışında çətinlik çəkdiyini göstərir. Mütəxəssislər bunun orfoqrafiya məlumatının bir hissəsi olmadığı üçün ola biləcəyini düşünürlər təlim verilənlər toplusu.
Kompozisiya əsaslandırması
Tədqiqatçılar müşahidə edirlər ki, DALL-E 2 hələ də kompozisiya əsaslandırmasında müəyyən çətinlik çəkir. Sadə dillə desək, model təsvirin ayrı-ayrı aspektlərini başa düşə bilir, eyni zamanda bu aspektlər arasındakı əlaqəni tapmaqda çətinlik çəkir.
Məsələn, “mavi kubun üstündəki qırmızı kub” əmri verilsə, DALL-E mavi kub və qırmızı kubu dəqiq şəkildə yaradacaq, lakin onları düzgün yerləşdirə bilməyəcək. Modelin müəyyən sayda obyektin çəkilməsini tələb edən göstərişlərlə də çətinlik çəkdiyi müşahidə edilmişdir.
Verilənlər toplusunda qərəzlilik
Əgər sorğuda başqa təfərrüatlar yoxdursa, DALL-E-nin ağ və ya Qərb insanları və mühitləri təsvir etdiyi müşahidə edilmişdir. Bu nümayəndəlik qərəzliyi verilənlər bazasında Qərb mərkəzli şəkillərin çoxluğuna görə baş verir.
Modelin gender stereotiplərini izlədiyi də müşahidə olunub. Məsələn, “stüardessa” əmrini yazmaq daha çox qadın stüardessaların şəkillərini yaradır.
Google Imagen AI nədir?
Google Şəkil AI daxil edilən mətndən fotoreal təsvirlər yaratmağı hədəfləyən modeldir. DALL-E kimi, model mətni başa düşmək üçün transformator dili modellərindən də istifadə edir və yüksək keyfiyyətli şəkillər yaratmaq üçün diffuziya modellərindən istifadə edir.
Imagen ilə yanaşı, Google həmçinin DrawBench adlı mətndən-şəklə modellər üçün etalon buraxdı. DrawBench-dən istifadə edərək, insan qiymətləndiricilərinin DALL-E 2 də daxil olmaqla digər modellərdən Imagen çıxışına üstünlük verdiyini müşahidə edə bildilər.
Bu necə işləyir?
DALL-E kimi, Imagen əvvəlcə istifadəçi sorğusunu dondurulmuş mətn kodlayıcısı vasitəsilə daxil olan mətnə çevirir.
Imagen səs-küy nümunəsini şəkillərə çevirməyi öyrənən diffuziya modelindən istifadə edir. Bu şəkillərin ilkin çıxışı aşağı rezolyusiyaya malikdir və daha sonra son təsvirin ayırdetmə qabiliyyətini artırmaq üçün super rezolyusiyaya malik diffuziya modeli kimi tanınan başqa bir modeldən keçir. İlk diffuziya modeli 64×64 piksel təsviri çıxarır və daha sonra yüksək keyfiyyətli 1024×1024 təsvirə qədər partladılır.
Imagen komandasının araşdırmasına əsaslanaraq, yalnız mətn məlumatları əsasında öyrədilmiş böyük dondurulmuş dil modelləri hələ də mətndən-şəklə generasiya üçün yüksək effektiv mətn kodlayıcılarıdır.
Tədqiqat həmçinin dinamik hədd anlayışını təqdim edir. Bu üsul, təsviri yaradan zaman təlimat çəkilərini artırmaqla şəkillərin daha fotoreal görünməsinə imkan verir.
DALLE 2 və Imagen performansı
Google-un etalonunun ilkin nəticələri göstərir ki, insan respondentlər DALL-E 2 və Latent Diffusion və VQGAN+CLIP kimi digər mətndən-şəkil modellərinə nisbətən Imagen tərəfindən yaradılan şəkillərə üstünlük verirlər.
Imagen komandasının nəticələri də göstərdi ki, onların modeli DALL-E 2 modelinin məlum zəif cəhəti olan mətni imlada daha yaxşı çıxış edir.
Bununla belə, Google modeli hələ ictimaiyyətə təqdim etmədiyinə görə, hələ də Google-un meyarlarının nə qədər dəqiq olduğunu görmək qalır.
Nəticə
Fotorealistik mətndən şəkilə modellərin yüksəlişi mübahisəlidir, çünki bu modellər qeyri-etik istifadə üçün hazırdır.
Texnologiya açıq məzmunun yaradılmasına və ya dezinformasiya vasitəsi kimi fəaliyyət göstərə bilər. Həm Google, həm də OpenAI tədqiqatçıları bundan xəbərdardırlar, buna görə də bu texnologiyalar hələ də hamı üçün əlçatan deyil.
Mətndən şəkilə modellərin də əhəmiyyətli iqtisadi təsirləri var. DALL-E kimi modellər populyarlaşarsa, modellər, fotoqraflar və rəssamlar kimi peşələr təsirlənəcəkmi?
Hal-hazırda, bu modellər hələ də məhdudiyyətlərə malikdir. Süni intellekt tərəfindən yaradılan hər hansı bir görüntünün yoxlanılması onun qüsurlarını aşkar edəcək. Həm OpenAI, həm də Google-un ən effektiv modellər uğrunda rəqabət apardığı bir vaxtda, həqiqətən mükəmməl bir məhsulun əldə edilməsi an məsələsi ola bilər: realdan fərqlənməyən görüntü.
Sizcə, texnologiya bu qədər irəli getdikdə nə baş verəcək?
Cavab yaz