Mündəricat[Gizlət][Göstər]
Yeni və təkmilləşdirilmiş süni intellekt təkmilləşdirilmiş qabiliyyətlərə, qavrayışa və daha yüksək keyfiyyətli təsvirlər yaratmaq qabiliyyətinə malikdir. Son vaxtlar internetdə gəzən qəribə və əyləncəli şəkillərlə rastlaşmısınız.
Şiba İnu iti beret və qara tısbağa geyinir. Və holland rəssamı Vermeerin “Mirvari sırğalı qız” əsərinin üslubunda dəniz su samuru. Və yunlu canavar kimi görünən bir fincan şorba var.
Bu şəkillər insan rəssam tərəfindən yaradılmayıb.
Bunun əvəzinə mətn təsvirlərini şəkillərə çevirə bilən yeni AI sistemi DALL-E 2 onları yaratdı.
Sadəcə görmək istədiyinizi yazın və AI onu sizin üçün yaradacaq – canlı təfərrüatlar, əla keyfiyyət və bəzi hallarda əsl ixtiraçılıq. Bu yazıda biz OpenAI-nin son araşdırmasına, DALL.E 2-yə, eləcə də onun necə işlədiyinə və daha çoxuna dərindən nəzər salacağıq. Gəlin başlayaq.
Beləliklə, dəqiq nədir DALL.E 2?
DALL-E 2 “generativ model”, giriş məlumatlarında proqnozlaşdırma və ya təsnifat tapşırıqlarını yerinə yetirməkdənsə, mürəkkəb çıxışlar yaradan maşın öyrənmə alqoritmi növüdür.
Siz DALL-E 2-ni yazılı təsvirlə təmin edirsiniz və o, ona uyğun bir şəkil yaradır. Konsepsiyalar, keyfiyyətlər və üslubları birləşdirərək, OpenAI-nin DALLE 2 əsas linqvistik təsvirdən innovativ, real qrafika və sənət yarada bilər.
Ən son versiya olan DALLE 2-nin daha çox yönlü olduğu, daha yüksək qətnamələrdə və daha geniş yaradıcı üslubda başlıqlardan şəkillər çəkə bildiyi bildirilir. Məsələn, aşağıdakı şəkillər (DALL-E 2 bloq yazısından) “Ata minən astronavt” təsviri ilə yaradılmışdır.
Təsvirlərdən biri “qələm eskizi kimi”, digəri isə “fotoreal şəkildə” yekunlaşır.
O, həmçinin mövcud fotoşəkilləri heyrətamiz dəqiqliklə dəyişdirə bilər. Beləliklə, siz rəngləri, əksləri və kölgələri saxlayaraq elementləri əlavə edə və ya silə bilərsiniz, eyni zamanda orijinal görüntünün görünüşünü qoruyub saxlaya bilərsiniz.
Necə işləyir?
DALL-E 2 iki mürəkkəb CLIP və diffuziya modellərindən istifadə edir dərin öyrənmə son illərdə işlənmiş yanaşmalar. Bununla belə, bütün digər dərinliklərlə eyni anlayışa əsaslanır neyron şəbəkələri: təmsil öyrənilməsi. CLIP eyni vaxtda iki məşq edir sinir şəbəkələri şəkillər və başlıqlar üzərində.
Bir şəbəkə şəkildəki vizual təsvirləri, digəri isə mətn təsvirlərini öyrənir. Təlim zamanı iki şəbəkə öz parametrlərini dəyişdirməyə çalışır ki, müqayisə edilə bilən şəkillər və təsvirlər oxşar əlavələrlə nəticələnsin.
“Diffuziya” təlim nümunələrini tədricən səs-küy salmaqla və səssizləşdirməklə şəkil çəkməyi öyrənən generativ model növü, DALL-E 2-də istifadə olunan digər maşın öyrənmə yanaşmasıdır. Diffuziya modelləri daxilolma məlumatlarını avtomatik kodlaşdırıcılara çevirmələri baxımından avtokodlayıcılara bənzəyir. yerləşdirmə təqdimatı və sonra orijinal məlumatları yenidən yaratmaq üçün daxiletmə məlumatından istifadə edin.
OpenAI-lərdən istifadə dil modeli Mətn təsvirlərini fotoşəkillərlə birləşdirə bilən CLIP, ilk növbədə yazılı əmri şəklin həmin sorğuya uyğun gəlməli olduğu mühüm xüsusiyyətləri özündə birləşdirən aralıq formaya çevirir (CLIP-ə görə).
İkincisi, DALL-E 2 CLIP-uyğunluq yaradır diffuziya modelindən istifadə edərək şəkil, neyron şəbəkəsidir.
Təsadüfi piksellərlə təhrif olunmuş fotoşəkillərdə diffuziya modelləri öyrənilir. Onlar fotoşəkillərin orijinal formasını necə bərpa etməyi öyrənirlər. Diffuziya modelləri yüksək keyfiyyətli sintetik təsvirlər yarada bilər, xüsusən də müxtəliflikdən daha çox dəqiqliyə üstünlük verən rəhbər yanaşma ilə birlikdə istifadə edildikdə.
Nəticədə, diffuziya modeli təsadüfi pikselləri götürür və onları söz sorğusuna uyğun gələn yeni təsvirə çevirmək üçün CLIP-dən istifadə edir. Diffuziya konsepsiyasına görə, DALL-E 2, DALL-E-dən daha yüksək keyfiyyətli təsvirlər istehsal edə bilər.
DALL.E 2 istifadə halı
Son iyirmi ildə kompüter görmə texnologiya sadə anlayışdan böyük bir sıçrayışa qədər irəliləmişdir. Bu irəliləyişlərə baxmayaraq, şəkil və obyekt tanıma modelləri hələ də gündəlik həyatda əhəmiyyətli maneələrlə üzləşirlər. Məlumat dəstlərinin olmaması təsvirin tanınması və kompüter görməsinin ən əhəmiyyətli çatışmazlıqlarından biridir. Hər iki tərəfdə məlumat çatışmazlığı olduğundan, 100 faiz dəqiq nəticələr vermək üçün görüntü tanıma modellərini öyrətmək demək olar ki, çətindir.
Xoşbəxtlikdən, OpenAI-nin yeni maşın öyrənmə modeli texnologiyadakı boşluğu aradan qaldıra bilər. DALLE 2 mətn təsvirləri əsasında heyrətamiz şəkillər yaratmağa qadirdir. Bu saxta şəkil istehsalı onların tələblərinə əsasən təsvirin tanınması modellərinə məlumat verə bilər. Məlumatın olmaması obyektin və şəklin identifikasiyası üçün əhəmiyyətli maneədir.
Rəqəmsal dövrdə məlumat dəstləri hər yerdə mövcuddur, lakin biz hələ də AI modelini qidalandırmaq üçün qısa yollar axtarırıq, buna görə də yaxşı nəticələr verə bilər. Bununla belə, təsvirin tanınması modelini öyrətmək asan deyil. Bu, kiçik fərqləri olan çoxlu sayda məlumat dəstini tələb edir ki, biz onları sadəcə əldə edə bilməmişik.
Beləliklə, cavab nədir: Cavab DALLE 2-dir. OpenAI şəkil generatoru mətnlərdən şəkillər çıxarmaq və mövcud olanları dəyişdirmək qabiliyyəti ilə boşluğu aradan qaldırmağa kömək edə bilər. Bu, əlavə təlim məlumatlarının yaradılmasına kömək edəcək, eyni zamanda tələb olunan insan etiketinin miqdarını azaldacaq. Əhəmiyyətli faydaya baxmayaraq, daxil edilməyi istisna edən saxta görüntü istehsallarından və şəkillərdən xəbərdar olmalısınız. Bu, qərəzli nəticələr verən görüntü aşkarlama üsullarına səbəb ola bilər.
Məhdudiyyətlər
OpenAI-a görə, DALL.E 2 səhv əllərə düşərsə, zərərli təsir göstərə bilər. Bugünkü dərin saxtakarlıq dünyasında model asanlıqla yalan məlumat və ya irqçi təsvirləri yaymaq üçün istifadə edilə bilər, buna görə də OpenAI yalnız tərtibatçılara DALL.2-dən dəvətnamə ilə istifadə etməyə icazə verir. Model aldığı bütün təkliflər üçün ciddi məzmun məhdudiyyətinə əməl etməlidir.
DALL.E 2-nin hər hansı düşmən və ya zorakı şəkillər yaratma potensialını istisna etmək üçün verilənlər bazası heç bir ölümcül silah olmadan yaradılmışdır. OpenAI, onu gələcəkdə API-yə çevirməyi planlaşdırdığını bildirsə də, DALL.E 2 vəziyyətində ehtiyatla davam etməyə hazırdır.
Nəticə
DALL-E 2, yeni tətbiqlərə qapı açan başqa bir maraqlı OpenAI tədqiqat kəşfidir.
Buna misal olaraq, kompüter görmə qabiliyyətinin əsas darboğazlarından birini – verilənləri qarşılamaq üçün kütləvi məlumat dəstləri yaratmaq olar. Bir çox DALL-E əsaslı proqramlar üçün iqtisadi vəziyyət OpenAI-nin API istifadəçiləri üçün müəyyən etdiyi qiymət və siyasətlə müəyyən edilsə də, onların hamısı, şübhəsiz ki, şəkil istehsalını inkişaf etdirəcək.
Cavab yaz