Siz kompyuterning rasmni tasvirlashi mumkinligini bilasiz.
Misol uchun, bolalaringiz bilan o'ynayotgan itning rasmini "bog'dagi it va bolalar" deb tarjima qilish mumkin. Ammo endi teskari yo'l ham amalga oshirilishi mumkinligini bilarmidingiz? Siz ba'zi so'zlarni kiritasiz va mashina yangi rasm yaratadi.
Mavjud fotosuratlarni qidiradigan Google qidiruvidan farqli o'laroq, bularning barchasi yangi. So'nggi yillarda OpenAI ajoyib natijalar haqida xabar beruvchi yetakchi tashkilotlardan biri bo'ldi.
Ular o'zlarining algoritmlarini katta matn va rasm ma'lumotlar bazalarida o'rgatishadi. Ular yuz millionlab fotosuratlar ustida o'qitiladigan GLIDE tasvir modeli haqida maqola chop etishdi. Fotorealizm nuqtai nazaridan u avvalgi "DALL-E" modelidan ustundir.
Ushbu postda biz OpenAI-ning GLIDE-ni ko'rib chiqamiz, bu matnga asoslangan diffuziya modellari bilan fotorealistik rasmlarni ishlab chiqarish va o'zgartirishga qaratilgan bir nechta ajoyib tashabbuslardan biridir. Keling, boshlaymiz.
Nima bu AI Glide-ni oching?
Ko'pgina tasvirlarni so'z bilan ta'riflash mumkin bo'lsa-da, matn kiritish orqali tasvirlarni yaratish maxsus bilim va katta vaqtni talab qiladi.
AI agentiga tabiiy til koʻrsatmalaridan fotoreal suratlar yaratishga ruxsat berish odamlarga misli koʻrilmagan osonlik bilan nafaqat boy va xilma-xil vizual materiallarni yaratishga imkon beradi, balki yaratilgan tasvirlarni yana bir necha marta takrorlash va nozik nazorat qilish imkonini beradi.
GLIDE-dan yangi ob'ektlar kiritish, soyalar va aks ettirish, bajarish uchun tabiiy tildagi matn takliflaridan foydalanib, mavjud fotosuratlarni tahrirlash uchun foydalanish mumkin. tasvirni bo'yash, va hokazo.
Shuningdek, u asosiy chizmalarni fotorealistik fotosuratlarga aylantirishi mumkin va u murakkab vaziyatlar uchun nol namunali ishlab chiqarish va ta'mirlash qobiliyatiga ega.
Yaqinda o'tkazilgan tadqiqotlar shuni ko'rsatdiki, ehtimollikka asoslangan diffuziya modellari, ayniqsa, xilma-xillik va sodiqlikni muvozanatlashtiradigan rahbarlik yondashuvi bilan birgalikda yuqori sifatli sintetik rasmlarni ham ishlab chiqishi mumkin.
OpenAI nashr etdi boshqariladigan diffuziya modeli may oyida, bu diffuziya modellarini tasniflagichning yorliqlarida shartli bo'lishiga imkon beradi. GLIDE ushbu muvaffaqiyatni matn-shartli tasvirni yaratish muammosiga yo'naltirilgan diffuziyani olib kelish orqali yaxshilaydi.
3.5 milliard parametrli GLIDE diffuziya modelini tabiiy til tavsiflariga moslashish uchun matn kodlovchisi yordamida o'qitgandan so'ng, tadqiqotchilar ikkita muqobil boshqaruv strategiyasini sinab ko'rdilar: CLIP yo'riqnomasi va klassifikatorsiz ko'rsatma.
CLIP - bu matn va rasmlarning qo'shma tasvirlarini o'rganish uchun kengaytiriladigan usul bo'lib, tasvirning sarlavhaga qanchalik yaqin ekanligiga qarab ball beradi.
Jamoa ushbu strategiyani diffuziya modellarida klassifikatorni modellarga “yo‘l-yo‘riq ko‘rsatuvchi” CLIP modeli bilan almashtirish orqali ishlatgan. Shu bilan birga, klassifikatorsiz yo'l-yo'riq alohida tasniflagichni o'qitishni nazarda tutmaydigan diffuziya modellarini yo'naltirish strategiyasidir.
GLIDE arxitekturasi
GLIDE arxitekturasi uchta komponentdan iborat: 64 × 64 o'lchamdagi tasvirni yaratishga o'rgatilgan Ablatatsiyalangan diffuziya modeli (ADM), matn taklifi orqali tasvirni yaratishga ta'sir qiluvchi matn modeli (transformator) va bizning kichik 64 × 64 o'lchamimizni o'zgartiradigan yuqori namunali model. tasvirlarni yanada talqin qilinadigan 256 x 256 pikselgacha.
Birinchi ikkita komponent rasm yaratish jarayonini boshqarish uchun birgalikda ishlaydi, shunda u matn taklifini mos ravishda aks ettiradi, ikkinchisi esa biz yaratgan tasvirlarni tushunishni osonlashtirish uchun talab qilinadi. GLIDE loyihasi a tomonidan ilhomlantirilgan 2021 yilda e'lon qilingan hisobot Bu shuni ko'rsatdiki, ADM texnikasi tasvir namunasi sifati bo'yicha hozirda mashhur, zamonaviy generativ modellardan ustundir.
ADM uchun GLIDE mualliflari Dhariwal va Nichol bilan bir xil ImageNet 64 x 64 modelidan foydalanganlar, ammo 512 o'rniga 64 ta kanalga ega. Buning natijasida ImageNet modeli taxminan 2.3 milliard parametrga ega.
GLIDE jamoasi, Dharival va Nikoldan farqli o'laroq, tasvirni yaratish jarayonini to'g'ridan-to'g'ri boshqarishni xohlashdi, shuning uchun ular vizual modelni diqqatni jalb qiluvchi transformator bilan birlashtirdilar. GLIDE sizga matn kiritish soʻrovlarini qayta ishlash orqali rasm yaratish jarayoni chiqishi ustidan baʼzi nazoratni beradi.
Bunga transformator modelini mos keladigan katta hajmdagi fotosuratlar va sarlavhalar to'plamiga o'rgatish orqali erishiladi (DALL-E loyihasida qo'llaniladiganga o'xshash).
Matnni shartlash uchun dastlab bir qator K tokenlariga kodlangan. Shundan so'ng, tokenlar transformator modeliga yuklanadi. Keyin transformatorning chiqishi ikki usulda ishlatilishi mumkin. ADM modeli uchun sinfni o'rnatish o'rniga yakuniy tokenni joylashtirish qo'llaniladi.
Ikkinchidan, tokenlarni joylashtirishning yakuniy qatlami - bir qator xususiyat vektorlari - ADM modelidagi har bir diqqat qatlami uchun o'lchamlarga mustaqil ravishda prognoz qilinadi va har bir diqqat kontekstiga birlashtiriladi.
Haqiqatda, bu ADM modeliga kiritilgan so'zlar va ular bilan bog'liq tasvirlarni o'rgangan tushunish asosida o'xshash matn belgilarining yangi kombinatsiyalaridan noyob va fotorealistik tarzda rasm yaratish imkonini beradi. Ushbu matn kodlash transformatori 1.2 milliard parametrni o'z ichiga oladi va kengligi 24 bo'lgan 2048 ta qolgan bloklardan foydalanadi.
Nihoyat, upsampler diffuziya modeli 1.5 milliardga yaqin parametrlarni o‘z ichiga oladi va asosiy modeldan farq qiladi, chunki uning matn kodlovchisi asosiy modelga nisbatan kichikroq, kengligi 1024 va 384 ta asosiy kanalga ega. Ushbu model, nomidan ko'rinib turibdiki, ham mashinalar, ham odamlar uchun talqin qilinishini yaxshilash maqsadida namunani yangilashga yordam beradi.
Diffuziya modeli
GLIDE o'zining ADM versiyasidan foydalangan holda tasvirlarni yaratadi ("yo'l-yo'riqli" uchun ADM-G). ADM-G modeli diffuziya U-net modelining modifikatsiyasi hisoblanadi. Diffuziya U-net modeli VAE, GAN va transformatorlar kabi keng tarqalgan tasvir sintezi usullaridan keskin farq qiladi.
Ular asta-sekin ma'lumotlarga tasodifiy shovqinni kiritish uchun diffuziya bosqichlarining Markov zanjirini quradilar va keyin diffuziya jarayonini teskari o'zgartirishni va faqat shovqindan kerakli ma'lumotlar namunalarini qayta qurishni o'rganadilar. U ikki bosqichda ishlaydi: oldinga va teskari diffuziya.
Oldinga diffuziya usuli, namunaning haqiqiy taqsimotidan olingan ma'lumotlar nuqtasini hisobga olgan holda, oldindan belgilangan qadamlar qatorida namunaga ozgina shovqin qo'shadi. Bosqichlar kattalashib, cheksizlikka yaqinlashganda, namuna barcha taniqli xususiyatlarni yo'qotadi va ketma-ketlik izotrop Gauss egri chizig'iga o'xshab keta boshlaydi.
Orqaga diffuziya paytida faza, diffuziya modeli qo'shilgan shovqinning rasmlarga ta'sirini qaytarishni o'rganadi va dastlabki kirish namunasi taqsimotiga o'xshab, olingan tasvirni asl shakliga qaytaradi.
Tugallangan model buni haqiqiy Gauss shovqini kiritish va taklif bilan amalga oshirishi mumkin. ADM-G usuli avvalgisidan farq qiladi, chunki model, CLIP yoki moslashtirilgan transformator, kiritilgan matn so'rov belgilaridan foydalangan holda orqaga tarqalish bosqichiga ta'sir qiladi.
Sirpanish qobiliyatlari
1. Tasvirni yaratish
GLIDE-dan eng mashhur va keng qo'llaniladigan foydalanish, ehtimol, tasvir sintezi bo'ladi. Rasmlar oddiy va GLIDE hayvonlar/inson shakllarida qiyinchiliklarga duch kelgan bo'lsa-da, bir martalik tasvirni yaratish imkoniyatlari deyarli cheksizdir.
U hayvonlar, mashhur odamlar, landshaftlar, binolar va boshqa ko'p narsalarni suratga olishi mumkin va u buni turli xil san'at uslublarida, shuningdek, fotoreal tarzda amalga oshirishi mumkin. Tadqiqotchilar mualliflarining ta'kidlashicha, GLIDE keng ko'lamli matn kiritishlarni talqin qilish va quyidagi misollarda ko'rsatilganidek, vizual formatga moslashtirishga qodir.
2. Bo‘yashda sirpanish
GLIDE-ning avtomatik fotosuratlarni bo'yash, shubhasiz, eng qiziqarli foydalanishdir. GLIDE mavjud rasmni kirish sifatida olishi, uni oʻzgartirish kerak boʻlgan joylarni hisobga olgan holda matn soʻrovi bilan qayta ishlashi va keyin bu qismlarga osonlikcha faol oʻzgartirishlar kiritishi mumkin.
Bundan ham yaxshi natijalarga erishish uchun uni SDEdit kabi tahrirlash modeli bilan birgalikda ishlatish kerak. Kelajakda bu kabi imkoniyatlardan foydalanadigan ilovalar kodsiz tasvirni o'zgartirish yondashuvlarini ishlab chiqishda hal qiluvchi ahamiyatga ega bo'lishi mumkin.
Xulosa
Endi biz jarayonni boshdan kechirganimizdan so'ng, siz GLIDE qanday ishlashining asoslarini, shuningdek, uning rasm yaratish va tasvirni o'zgartirish imkoniyatlarining kengligini tushunishingiz kerak.
Leave a Reply