Çox güman ki, kompüterin şəkli təsvir edə biləcəyini bilirsiniz.
Məsələn, uşaqlarınızla oynayan bir itin şəklini "bağda it və uşaqlar" kimi tərcümə etmək olar. Ancaq əks yolun indi də mümkün olduğunu bilirdinizmi? Siz bəzi sözləri yazın və maşın yeni şəkil yaradır.
Mövcud fotoşəkilləri axtaran Google axtarışından fərqli olaraq, bunların hamısı təzədir. Son illərdə OpenAI heyrətamiz nəticələr barədə hesabat verən aparıcı təşkilatlardan biri olmuşdur.
Onlar alqoritmlərini kütləvi mətn və şəkil verilənlər bazaları üzərində öyrədirlər. Onlar yüz milyonlarla fotoşəkil üzərində öyrədilmiş GLIDE imic modelləri haqqında bir məqalə dərc etdilər. Fotorealizm baxımından o, onların əvvəlki "DALL-E" modelini üstələyir.
Bu yazıda mətnlə idarə olunan diffuziya modelləri ilə fotoreal şəkillərin istehsalı və dəyişdirilməsinə yönəlmiş bir neçə maraqlı təşəbbüslərdən biri olan OpenAI-nin GLIDE-ə baxacağıq. Başlayaq.
Nədir AI Glide-ı açın?
Əksər şəkillər sözlə təsvir oluna bilsə də, mətn daxiletmələrindən şəkillərin yaradılması xüsusi bilik və xeyli vaxt tələb edir.
Süni intellekt agentinə təbii dildən fotoreal şəkillər yaratmağa icazə vermək insanlara misli görünməmiş asanlıqla zəngin və müxtəlif vizual material yaratmağa imkan vermir, həm də yaradılmış şəkillərin daha sadə təkrarlayıcı incəliyinə və incə dənəli idarə olunmasına imkan verir.
GLIDE, yeni obyektlər daxil etmək, kölgələr və əkslər yaratmaq, icra etmək üçün təbii dildə mətn təkliflərindən istifadə etməklə mövcud fotoşəkilləri redaktə etmək üçün istifadə edilə bilər. şəkil çəkmək, Və s.
O, həmçinin əsas xətt təsvirlərini fotorealistik fotoşəkillərə çevirə bilər və mürəkkəb vəziyyətlər üçün müstəsna sıfır nümunə istehsal və təmir imkanlarına malikdir.
Son tədqiqatlar göstərdi ki, ehtimala əsaslanan diffuziya modelləri, xüsusən də müxtəlifliyi və sədaqəti tarazlaşdıran istiqamətləndirici yanaşma ilə birləşdirildikdə yüksək keyfiyyətli sintetik şəkillər də yarada bilər.
OpenAI nəşr etdi idarə olunan diffuziya modeli may ayında, diffuziya modellərinin təsnifatçının etiketlərində şərti olmasına imkan verir. GLIDE mətn-şərti təsvirin yaradılması probleminə istiqamətləndirilmiş diffuziya gətirməklə bu uğuru təkmilləşdirir.
Tədqiqatçılar təbii dil təsvirlərini şərtləndirmək üçün mətn kodlayıcısından istifadə edərək 3.5 milyard parametrli GLIDE diffuziya modelini öyrətdikdən sonra iki alternativ istiqamətləndirmə strategiyasını sınaqdan keçirdilər: CLIP bələdçisi və təsnifatçısız bələdçi.
CLIP mətnin və şəkillərin birgə təsvirlərini öyrənmək üçün genişlənə bilən bir texnikadır və təsvirin başlığa nə qədər yaxın olduğuna əsaslanaraq xal verir.
Komanda bu strategiyanı diffuziya modellərində klassifikatoru modelləri “rəhbər edən” CLIP modeli ilə əvəz etməklə istifadə etdi. Eyni zamanda, klassifikatorsuz rəhbərlik ayrı bir təsnifatçının təlimini nəzərdə tutmayan diffuziya modellərini istiqamətləndirmək üçün strategiyadır.
GLIDE Arxitektura
GLIDE arxitekturası üç komponentdən ibarətdir: 64 × 64 şəkil yaratmaq üçün öyrədilmiş Ablated Diffuziya Modeli (ADM), mətn sorğusu vasitəsilə təsvirin yaradılmasına təsir edən mətn modeli (transformator) və kiçik 64 × 64-ə çevirən yuxarı nümunə modeli. şəkilləri daha şərh edilə bilən 256 x 256 pikselə qədər.
İlk iki komponent şəkil yaratma prosesini idarə etmək üçün birlikdə işləyir ki, o, mətn sorğusunu müvafiq şəkildə əks etdirsin, ikincisi isə yaratdığımız şəkilləri daha asan başa düşmək üçün tələb olunur. GLIDE layihəsi birdən ilhamlanıb 2021-ci ildə dərc edilmiş hesabat bu göstərdi ki, ADM texnikaları şəkil nümunəsinin keyfiyyəti baxımından hazırda populyar, ən müasir generativ modelləri üstələyir.
ADM üçün GLIDE müəllifləri Dhariwal və Nichol ilə eyni ImageNet 64 x 64 modelindən istifadə etdilər, lakin 512 əvəzinə 64 kanal var. Bunun nəticəsində ImageNet modelində təxminən 2.3 milyard parametr var.
GLIDE komandası, Dhariwal və Nicholdan fərqli olaraq, şəkil yaratma prosesinə daha çox birbaşa nəzarət etmək istədi, beləliklə, vizual modeli diqqəti aktivləşdirən transformatorla birləşdirdilər. GLIDE sizə mətn daxiletmə göstərişlərini emal etməklə şəkil yaratma prosesinin çıxışı üzərində müəyyən nəzarət imkanı verir.
Bu, transformator modelini uyğun böyük bir fotoşəkil və başlıq verilənlər bazasında (DALL-E layihəsində istifadə olunana oxşar) öyrətməklə həyata keçirilir.
Mətn əvvəlcə onu şərtləndirmək üçün bir sıra K işarələrinə kodlanır. Bundan sonra tokenlər transformator modelinə yüklənir. Transformatorun çıxışı daha sonra iki şəkildə istifadə edilə bilər. ADM modeli üçün sinfin yerləşdirilməsi əvəzinə son işarənin yerləşdirilməsi istifadə olunur.
İkincisi, token daxiletmələrinin son qatı – bir sıra xüsusiyyət vektorları – ADM modelindəki hər bir diqqət qatının ölçülərinə müstəqil şəkildə proqnozlaşdırılır və hər bir diqqət kontekstinə birləşdirilir.
Reallıqda bu, ADM modelinə daxil edilən sözlərin və onlarla əlaqəli təsvirlərin öyrənilmiş başa düşülməsinə əsaslanaraq, bənzər mətn nişanələrinin yeni birləşmələrindən unikal və fotoreal üslubda şəkil yaratmağa imkan verir. Bu mətn kodlaşdırıcı transformator 1.2 milyard parametrdən ibarətdir və eni 24 olan 2048 qalıq blokdan istifadə edir.
Nəhayət, upsampler diffuziya modeli təxminən 1.5 milyard parametrdən ibarətdir və əsas modeldən fərqli olaraq, mətn kodlayıcısı əsas modellə müqayisədə daha kiçikdir, eni 1024 və 384 əsas kanaldır. Bu model, adından da göründüyü kimi, həm maşınlar, həm də insanlar üçün şərhi yaxşılaşdırmaq üçün nümunənin təkmilləşdirilməsinə kömək edir.
Diffuziya modeli
GLIDE ADM-in öz versiyasından istifadə edərək şəkillər yaradır (ADM-G “rəhbər olunan” üçün). ADM-G modeli diffuziya U-şəbəkə modelinin modifikasiyasıdır. Diffuziya U-şəbəkəsi modeli VAE, GAN və transformatorlar kimi daha çox yayılmış təsvir sintezi üsullarından kəskin şəkildə fərqlənir.
Onlar verilənlərə tədricən təsadüfi səs-küy yeritmək üçün Markov diffuziya addımlarının zəncirini qurur və sonra diffuziya prosesini tərsinə çevirməyi və tələb olunan məlumat nümunələrini tək səs-küydən yenidən qurmağı öyrənirlər. İki mərhələdə fəaliyyət göstərir: irəli və geri diffuziya.
Nümunənin həqiqi paylanmasından bir məlumat nöqtəsi nəzərə alınmaqla irəli diffuziya metodu əvvəlcədən təyin edilmiş bir sıra addımlar üzərində nümunəyə kiçik bir səs-küy əlavə edir. Addımlar ölçüdə artdıqca və sonsuzluğa yaxınlaşdıqca, nümunə bütün tanınan xüsusiyyətlərini itirir və ardıcıllıq izotrop Qauss əyrisinə bənzəməyə başlayır.
Geriyə doğru diffuziya zamanı faza, diffuziya modeli Şəkillərə əlavə edilmiş səs-küyün təsirini geri qaytarmağı və orijinal daxiletmə nümunəsinin paylanmasına bənzəməyə çalışaraq hazırlanmış təsviri orijinal formasına qaytarmağı öyrənir.
Tamamlanmış bir model bunu real Gauss səs-küy girişi və sorğu ilə edə bilər. ADM-G metodu əvvəlkindən fərqlənir ki, model, ya CLIP, ya da fərdiləşdirilmiş transformator, daxil edilmiş mətn sorğusu nişanlarından istifadə etməklə geriyə diffuziya mərhələsinə təsir edir.
Sürüşmə imkanları
1. Təsvirin yaradılması
GLIDE-nin ən populyar və geniş istifadə edilən istifadəsi yəqin ki, görüntü sintezi olacaqdır. Şəkillər təvazökar olsa da və GLIDE heyvan/insan formalarında çətinlik çəksə də, bir çəkilişdə təsvir yaratmaq potensialı demək olar ki, sonsuzdur.
O, heyvanların, məşhurların, mənzərələrin, binaların və daha çox şeylərin fotoşəkillərini yarada bilər və bunu müxtəlif sənət üslublarında, eləcə də foto-real şəkildə edə bilər. Tədqiqatçıların müəllifləri iddia edirlər ki, GLIDE aşağıdakı nümunələrdə göründüyü kimi geniş çeşidli mətn daxiletmələrini vizual formata çevirmək və uyğunlaşdırmaq qabiliyyətinə malikdir.
2. Boyama üçün sürüşdürün
GLIDE-nin avtomatik fotoşəkil çəkməsi, şübhəsiz ki, ən maraqlı istifadədir. GLIDE giriş kimi mövcud şəkli çəkə, dəyişdirilməli olan yerlər üçün mətn sorğusu ilə onu emal edə və sonra asanlıqla həmin hissələrdə aktiv dəyişikliklər edə bilər.
Daha yaxşı nəticələr əldə etmək üçün SDEdit kimi redaktə modeli ilə birlikdə istifadə edilməlidir. Gələcəkdə bu kimi imkanlardan istifadə edən proqramlar kodsuz şəkil dəyişdirmə yanaşmalarının işlənib hazırlanmasında mühüm rol oynaya bilər.
Nəticə
Prosesi keçdiyimizə görə, siz GLIDE-nin necə işlədiyinin əsaslarını, eləcə də onun şəkil yaratmaq və təsvirin modifikasiyasındakı imkanlarının genişliyini başa düşməlisiniz.
Cavab yaz