Ümumiyyətlə, GAN, VAE və avtoreqressiv modellər kimi dərin generativ modellər təsvirin sintezi problemlərini həll edir.
Yaratdıqları məlumatların yüksək keyfiyyətini nəzərə alaraq, generativ rəqib şəbəkələr (GAN) son illərdə çox diqqət çəkir.
Diffuziya modelləri özünü təsdiqləyən başqa bir maraqlı tədqiqat sahəsidir. Şəkil, video və səs yaratmaq sahələri hər ikisi üçün geniş istifadə tapmışdır.
Diffuziya modelləri və GAN-lar: Hansı daha yaxşı nəticələr verir? Təbii ki, bu, davamlı müzakirələrə səbəb olub.
GAN kimi tanınan hesablama arxitekturasında iki sinir şəbəkələri orijinal məlumat üçün keçə bilən yeni sintez edilmiş məlumat nümunələrini yaratmaq üçün bir-birinə qarşı mübarizə aparırlar.
Diffuziya modelləri musiqi və qrafika istehsalı üçün təlim sabitliyi və yüksək nəticələr təmin etdiyi üçün getdikcə populyarlaşır.
Bu məqalə diffuziya modeli və GAN-ları, eləcə də onların bir-birindən və bir neçə başqa şeydən necə fərqləndiyini ətraflı nəzərdən keçirəcək.
Beləliklə, Generativ Düşmən Şəbəkələri nədir?
Həqiqi məlumatlarla səhv salına bilən yeni, süni məlumat nümunələri yaratmaq üçün generativ rəqib şəbəkələr (GAN) iki neyron şəbəkədən istifadə edir və onları bir-birinə qarşı qoyur (beləliklə, adda “rəqib”).
Onlar nitq, video və şəkil yaratmaq üçün geniş istifadə olunur.
GAN-ın məqsədi müəyyən bir verilənlər bazasından əvvəllər kəşf edilməmiş məlumatları yaratmaqdır. Nümunələrdən faktiki, naməlum əsas məlumat paylanması modelini çıxarmağa cəhd bunu edir.
Alternativ olaraq, bu şəbəkələr xüsusi statistik paylanmanı öyrənməyə çalışan gizli modellərdir.
GAN-ın bu məqsədə nail olmaq üçün istifadə etdiyi üsul yeni idi. Əslində, gizli bir model hazırlamaq üçün iki oyunçu oyunu oynayaraq məlumat istehsal edirlər.
Aşağıdakılar strukturu təsvir edir:
- həqiqi və saxta məlumatları ayırd etmək qabiliyyətini qazanan diskriminator
- məlumat yaratmaq üçün yeni yollar seçən generator diskriminatoru aldada bilər.
Diskriminator neyron şəbəkəsi kimi çıxış edir. Buna görə də, generator onu aldatmaq üçün yüksək keyfiyyətli bir şəkil yaratmalıdır.
Bu generatorların heç bir çıxış paylanmasından istifadə etməklə öyrədilməməsi, avtokoder modelləri ilə digər modellər arasında əhəmiyyətli fərqdir.
Modelin itki funksiyasını parçalamağın iki yolu var:
- ayrı-seçkilikçinin real məlumatları dəqiqliklə qabaqcadan görüb-görmədiyini kəmiyyətcə qiymətləndirmək imkanı
- yaradılan məlumat bir hissə ilə dəqiq proqnozlaşdırılır.
Ən yaxşı mümkün diskriminatorda bu itki funksiyası minimuma endirilir:
Buna görə də ümumi modellər məsafəni minimuma endirmə modelləri və əgər diskriminator idealdırsa, həqiqi və istehsal paylama arasında fərqin minimuma endirilməsi kimi düşünülə bilər.
Reallıqda fərqli fikir ayrılıqları tətbiq oluna bilər və müxtəlif GAN təlim metodları ilə nəticələnə bilər.
Generator və diskriminator arasında uyğunlaşmanı ehtiva edən öyrənmə dinamikası, GAN-ların itki funksiyasını tənzimləmək üçün sadə olmasına baxmayaraq, izləməkdə çətinlik çəkir.
Həmçinin öyrənmənin birləşəcəyinə dair heç bir təminat yoxdur. Nəticədə, GAN modelini öyrətmək çətindir, çünki yoxa çıxan gradientlər və rejimin çökməsi (yaradılan nümunələrdə müxtəliflik olmadıqda) kimi problemlərə rast gəlmək tipikdir.
İndi Diffuziya Modellərinin vaxtıdır
GAN-ların təlim konvergensiyası ilə bağlı problem diffuziya modellərinin inkişafı ilə həll edilmişdir.
Bu modellər güman edir ki, diffuziya prosesi səs-küyün mütərəqqi müdaxiləsi nəticəsində yaranan məlumat itkisinə bərabərdir (diffuziya prosesinin hər anında qauss səs-küyü əlavə olunur).
Belə bir modelin məqsədi səs-küyün nümunədə mövcud olan məlumatlara necə təsir etdiyini və ya başqa sözlə desək, diffuziya nəticəsində nə qədər məlumat itirdiyini müəyyən etməkdir.
Əgər model bunu anlaya bilsə, o, orijinal nümunəni götürə və baş vermiş məlumat itkisini geri qaytara bilməlidir.
Bu, denoising diffuziya modeli vasitəsilə həyata keçirilir. İrəli diffuziya prosesi və tərs diffuziya prosesi iki addımı təşkil edir.
İrəli diffuziya prosesi məlumat tamamilə səs-küy ilə çirklənənə qədər tədricən Qauss səs-küyünün (yəni, diffuziya prosesi) əlavə edilməsini nəzərdə tutur.
Sonradan neyron şəbəkəsi səs-küyü geri qaytarmaq üçün şərti paylanma ehtimallarını öyrənmək üçün əks diffuziya metodundan istifadə etməklə öyrədilir.
Burada haqqında daha çox başa düşə bilərsiniz diffuziya modeli.
Diffuziya Modeli Vs GAN
Diffuziya modeli kimi, GAN-lar səs-küydən şəkillər yaradır.
Model, sinif etiketi və ya mətn kodlaşdırması kimi bəzi informativ kondisioner dəyişənlərinin səs-küyü ilə başlayan generator neyron şəbəkəsindən ibarətdir.
Nəticədə real görüntüyə bənzəyən bir şey olmalıdır.
Fotorealist və yüksək keyfiyyətli şəkil nəsilləri yaratmaq üçün biz GAN-lardan istifadə edirik. Diffuziya modellərindən istifadə etməklə GAN-lardan daha real vizuallar hazırlanır.
Bir növ, diffuziya modelləri faktları təsvir etməkdə daha dəqiqdir.
GAN giriş təsadüfi səs-küy və ya sinif kondisioner dəyişəni kimi qəbul edib real nümunə çıxarsa da, diffuziya modelləri çox vaxt daha yavaş, iterativ olur və daha çox rəhbərliyə ehtiyac duyur.
Səs-küydən orijinal görüntüyə qayıtmaq məqsədi ilə denoising dəfələrlə tətbiq edildikdə xəta üçün çox yer yoxdur.
Yaradılma mərhələsində hər bir yoxlama nöqtəsi keçir və hər addımda şəkil getdikcə daha çox məlumat əldə edə bilər.
Nəticə
Nəticə olaraq, yalnız 2020-ci və 2021-ci illərdə dərc edilmiş bir neçə əhəmiyyətli araşdırmaya görə, diffuziya modelləri indi şəkil sintezi baxımından GAN-ları üstələyə bilər.
Bu il OpenAI işə salındı DALL-E2, praktikantlara diffuziya modellərindən istifadə etməyə imkan verən görüntü istehsalı modeli.
GAN-ların qabaqcıl olmasına baxmayaraq, onların məhdudiyyətləri onları yeni kontekstlərdə miqyasını genişləndirməyi və istifadə etməyi çətinləşdirir.
Ehtimal əsaslı modellərdən istifadə edərək GAN kimi nümunə keyfiyyətinə nail olmaq üçün çox iş görülmüşdür.
Cavab yaz