Umuman olganda, GAN, VAE va avtoregressiv modellar kabi chuqur generativ modellar tasvir sintezi muammolarini hal qiladi.
Ular yaratadigan ma'lumotlarning yuqori sifatini hisobga olgan holda, so'nggi yillarda generativ raqib tarmoqlari (GAN) ga katta e'tibor qaratilmoqda.
Diffuziya modellari o'zini namoyon qilgan yana bir qiziqarli tadqiqot sohasidir. Tasvir, video va ovoz yaratish sohalari ikkalasi uchun ham keng qo'llanilgan.
Diffuziya modellari va GANlar: qaysi biri yaxshiroq natijalar beradi? Tabiiyki, bu doimiy muhokamaga sabab bo'ldi.
GAN deb nomlanuvchi hisoblash arxitekturasida ikkita neyron tarmoqlari haqiqiy ma'lumotlarga o'tishi mumkin bo'lgan yangi sintezlangan ma'lumotlar nusxalarini yaratish uchun bir-biriga qarshi kurashadi.
Diffuziya modellari tobora ommalashib bormoqda, chunki ular o'qitish barqarorligi va musiqa va grafiklarni ishlab chiqarish uchun yuqori natijalarni beradi.
Ushbu maqola diffuziya modeli va GANlarni, shuningdek, ularning bir-biridan qanday farq qilishini va boshqa bir nechta narsalarni batafsil ko'rib chiqadi.
Xo'sh, generativ raqib tarmoqlari nima?
Haqiqiy ma'lumotlar bilan adashtirilishi mumkin bo'lgan yangi, sun'iy ma'lumotlar nusxalarini yaratish uchun generativ raqib tarmoqlar (GAN) ikkita neyron tarmoqdan foydalanadi va ularni bir-biriga qarama-qarshi qo'yadi (shuning uchun nomdagi "dushman").
Ular nutq, video va rasm yaratish uchun keng qo'llaniladi.
GANning maqsadi ma'lum bir ma'lumotlar to'plamidan ilgari ochilmagan ma'lumotlarni yaratishdir. Namunalardan haqiqiy, noma'lum asosiy ma'lumotlarni taqsimlash modelini chiqarishga urinish buni amalga oshiradi.
Shu bilan bir qatorda, bu tarmoqlar ma'lum bir statistik taqsimotni o'rganishga harakat qiladigan yashirin modellardir.
GAN ushbu maqsadga qanday erishish mumkinligini aniqlashda qo'llagan usul yangi edi. Aslida, ular yashirin modelni ishlab chiqish uchun ikki o'yinchi o'yinini o'ynash orqali ma'lumotlarni ishlab chiqaradilar.
Quyidagilar strukturani tavsiflaydi:
- haqiqiy va soxta ma'lumotlarni farqlash qobiliyatiga ega bo'lgan diskriminator
- ma'lumotlarni yaratishning yangi usullarini tanlaydigan generator diskriminatorni aldashi mumkin.
Diskriminator neyron tarmoq sifatida namoyon bo'ladi. Shuning uchun, generatorni aldash uchun yuqori sifatli rasm yaratish kerak.
Ushbu generatorlarning hech qanday chiqish taqsimoti yordamida o'qitilmaganligi avtokoder modellari va boshqa modellar o'rtasidagi sezilarli farqdir.
Modelning yo'qotish funktsiyasini ajratishning ikki yo'li mavjud:
- diskriminator haqiqiy ma'lumotlarni to'g'ri taxmin qilsa, miqdoriy aniqlash qobiliyati
- hosil qilingan ma'lumotlar bir qismi tomonidan aniq bashorat qilinadi.
Eng yaxshi mumkin bo'lgan diskriminatorda bu yo'qotish funktsiyasi minimallashtiriladi:
Shuning uchun umumiy modellarni masofani minimallashtirish modellari va agar diskriminator ideal bo'lsa, haqiqiy va ishlab chiqarilgan taqsimot o'rtasidagi farqni minimallashtirish sifatida ko'rib chiqish mumkin.
Aslida, turli xil tafovutlar qo'llanilishi va turli xil GAN o'qitish usullariga olib kelishi mumkin.
Generator va diskriminator o'rtasidagi kelishuvni o'z ichiga olgan o'rganish dinamikasi, GAN-larning yo'qotish funktsiyasini sozlash oson bo'lishiga qaramay, amal qilish qiyin.
Shuningdek, ta'limning birlashishiga kafolat yo'q. Natijada, GAN modelini o'rgatish qiyin, chunki gradientlarning yo'qolishi va rejimning buzilishi (hosil qilingan namunalarda xilma-xillik bo'lmasa) kabi muammolarga duch kelish odatiy holdir.
Endi diffuziya modellari vaqti keldi
GANlarning ta'lim konvergentsiyasi bilan bog'liq muammo diffuziya modellarini ishlab chiqish orqali hal qilindi.
Ushbu modellar diffuziya jarayoni shovqinning progressiv aralashuvi (diffuziya jarayonining har bir bosqichida gauss shovqini qo'shiladi) natijasida kelib chiqadigan ma'lumotlarning yo'qolishiga teng deb taxmin qiladi.
Bunday modelning maqsadi shovqinning namunadagi ma'lumotlarga qanday ta'sir qilishini yoki boshqacha qilib aytganda, diffuziya tufayli qancha ma'lumot yo'qolishini aniqlashdir.
Agar model buni aniqlay olsa, u asl namunani olishi va sodir bo'lgan ma'lumot yo'qotilishini bekor qilishi kerak.
Bu denoising diffuziya modeli orqali amalga oshiriladi. Oldinga diffuziya jarayoni va teskari diffuziya jarayoni ikki bosqichni tashkil qiladi.
Oldinga diffuziya jarayoni ma'lumotlar shovqin bilan to'liq ifloslanmaguncha asta-sekin Gauss shovqinini (ya'ni, diffuziya jarayoni) qo'shishni o'z ichiga oladi.
Neyron tarmoq keyinchalik shovqinni qaytarish uchun shartli taqsimlanish ehtimolini o'rganish uchun teskari diffuziya usuli yordamida o'qitiladi.
Bu erda siz ko'proq narsani tushunishingiz mumkin diffuziya modeli.
Diffuziya modeli va GANlar
Diffuziya modeli singari, GANlar shovqindan suratlar ishlab chiqaradi.
Model sinf yorlig'i yoki matn kodlash kabi ba'zi ma'lumot beruvchi konditsioner o'zgaruvchilarning shovqini bilan boshlanadigan generator neyron tarmog'idan iborat.
Natijada haqiqiy tasvirga o'xshash narsa bo'lishi kerak.
Fotorealistik va yuqori aniqlikdagi tasvir avlodlarini yaratish uchun biz GANlardan foydalanamiz. Diffuziya modellari yordamida GAN-larga qaraganda ko'proq real vizual tasvirlar ishlab chiqariladi.
Qaysidir ma'noda, diffuziya modellari faktlarni tasvirlashda aniqroqdir.
GAN kirish tasodifiy shovqin yoki sinfni konditsioner o'zgaruvchisi sifatida qabul qilsa va real namunani chiqaradi, diffuziya modellari ko'pincha sekinroq, iterativdir va ko'proq ko'rsatmalarga muhtoj.
Shovqindan asl tasvirga qaytish maqsadida denoiziya qayta-qayta qo‘llanilganda xatoga yo‘l qo‘yish mumkin emas.
Har bir nazorat punkti butun yaratish bosqichida o'tadi va har bir qadam bilan rasm ko'proq va ko'proq ma'lumotga ega bo'lishi mumkin.
Xulosa
Xulosa qilib aytganda, faqat 2020 va 2021 yillarda nashr etilgan bir nechta muhim tadqiqotlar tufayli diffuziya modellari endi rasm sintezi bo'yicha GAN dan ustun bo'lishi mumkin.
Bu yil OpenAI ishga tushirildi DALL-E2, amaliyotchilarga diffuziya modellarini qo'llash imkonini beruvchi tasvir ishlab chiqarish modeli.
GANlar ilg'or bo'lsa-da, ularning cheklovlari ularni yangi kontekstlarda kengaytirish va ishlatishni qiyinlashtiradi.
Ehtimoliylikka asoslangan modellardan foydalangan holda GANga o'xshash namuna sifatiga erishish uchun unga juda ko'p ishlar qilingan.
Leave a Reply