ning chiqarilishi bilan diffuziya modellari butun dunyoni bo'ron bilan qamrab oldi Dall-E 2, Google Imagen, Barqaror diffuziyava O'rta sayohat, innovatsiyalarni qo'zg'atdi va mashinani o'rganish chegaralarini kengaytirdi.
Ushbu modellar so'zlardan deyarli cheksiz miqdordagi tasvirlarni, jumladan, fotorealistik, sehrli, futuristik va, albatta, yoqimli tasvirlarni yaratishi mumkin.
Bu qobiliyatlar kremniy bilan aloqa qilish odamlar uchun nimani anglatishini qayta ko'rib chiqadi va biz tasavvur qila oladigan deyarli har qanday rasmni yaratish qobiliyatini beradi.
Ushbu modellar rivojlanishi yoki keyingi generativ paradigmani egallashi bilan odamlar faqat bir fikr bilan tasvirlar, filmlar va boshqa immersiv tajribalarni yaratishi mumkin bo'ladi.
Ushbu postda biz buni muhokama qilamiz diffuziya modeli, barqaror diffuziya, uning qanday ishlashi va diffuziya modeli bo'yash bo'yicha qo'llanma va boshqalar.
Diffuziya modeli nima?
O'quv ma'lumotlaridan yangi ma'lumotlarni yaratishi mumkin bo'lgan mashinani o'rganish modellari generativ modellar deb ataladi. Boshqa generativ modellarga oqimga asoslangan modellar, variatsion avtokoderlar va generativ raqib tarmoqlari (GAN) kiradi.
Ularning har biri mukammal sifatli suratlarni yaratishi mumkin. Diffuziya modellari shovqin qo'shish orqali mashg'ulot ma'lumotlariga zarar etkazgandan so'ng, shovqin qo'shish jarayonini teskari yo'l bilan tiklash orqali ma'lumotlarni qayta tiklashni o'rganadilar. Boshqacha qilib aytganda, diffuziya modellari shovqindan izchil suratlar yaratishga qodir.
Diffuziya modellari rasmlarga shovqin kiritish orqali o'rganadi, model keyinchalik ularni olib tashlashni o'zlashtiradi. Haqiqiy vizual tasvirlarni yaratish uchun model keyinchalik bu denoising usulini tasodifiy urug'larga qo'llaydi.
Rasm ishlab chiqarish jarayonini shartlashtirgan holda, ushbu modellar matndan tasvirga ko'rsatmalar bilan birgalikda faqat matndan deyarli cheksiz miqdordagi tasvirlarni yaratish uchun ishlatilishi mumkin. Urug'larni matndan tasvirga kuchli qobiliyatlarni berish uchun CLIP kabi o'rnatishlardan kirishlar orqali yo'naltirish mumkin.
Diffuziya modellari turli xil vazifalarni bajarishi mumkin, jumladan, tasvirni yaratish, tasvirni denoizatsiya qilish, bo'yash, bo'yash va bit diffuziya.
Endi barqaror diffuziya nima?
Barqaror diffuziya - matnga asoslangan rasm yaratish uchun mashinani o'rganish modeli tomonidan taqdim etilgan Barqarorlik. AI. U matndan tasvirlar yaratishga qodir.
Barqaror diffuziya komponentlari
Barqaror diffuziya bir qancha komponentlar va tushunchalardan tashkil topgan tizimdir. Bu bitta model emas. Kaputning orqa tomonini tekshirganimizda, biz ko'rgan birinchi narsa, matnni tushunish komponenti mavjud bo'lib, u matn ma'lumotlarini matn tushunchalarini qamrab oladigan raqamli tasvirga aylantiradi.
Ushbu matn kodlovchisini Transformator deb atashimiz mumkin til modeli (texnik jihatdan: CLIP modelining matn kodlovchisi). U kiritilgan matnni oladi va matndagi har bir soʻz/token uchun butun sonlar roʻyxatini (vektor) hosil qiladi. Keyin bu ma'lumotlar bir nechta komponentlardan tashkil topgan Image Generatorga beriladi.
Tasvir generatorida ikki bosqich mavjud:
1. Tasvir axboroti yaratuvchisi
Barqaror diffuziyadagi asosiy komponent bu elementdir. Oldingi versiyalarga nisbatan ishlashning ko'p yaxshilanishi aynan shu erda amalga oshiriladi.
Ushbu komponent rasm ma'lumotlarini taqdim etish uchun bir necha bosqichlardan o'tadi. Rasm ma'lumotlarini yaratuvchisi faqat tasvir ma'lumot maydoni (yoki yashirin fazo) ichida ishlaydi.
Bu xususiyat tufayli pikselli bo'shliqda ishlaydigan oldingi diffuziya modellariga qaraganda tezroq. Texnik jihatdan aytganda, bu komponent rejalashtirish algoritmi va UNet dan iborat. neyron tarmoq.
Ushbu komponentda sodir bo'ladigan jarayon "diffuziya" deb ataladi. Axborotni bosqichma-bosqich qayta ishlash natijasida (keyingi komponent - tasvir dekoderi) yuqori sifatli tasvir oxir-oqibat hosil bo'ladi.
2. Rasm dekoderi
Axborot ishlab chiqaruvchisidan olingan ma'lumotlardan foydalanib, tasvir dekoderi rasm yaratadi. Amaliyot oxirida tugallangan pikselli rasmni yaratish uchun u faqat bir marta ishlaydi.
Barqaror diffuziyani tasvirlash bo'yicha qo'llanma
Barqaror diffuziyali rasmni bo'yash - bu tasvirning etishmayotgan yoki shikastlangan joylarini to'ldirish usuli. Rasmni bo'yashning maqsadi tasvirning qayta tiklanganligini yashirishdir.
Ushbu usul ko'pincha tasvirdan keraksiz narsalarni yo'q qilish yoki tarixiy fotosuratlarning shikastlangan joylarini tiklash uchun ishlatiladi. Barqaror diffuziya bilan bo'yash - bu bo'yashning nisbatan yaqinda qo'llanilgan usuli bo'lib, u istiqbolli effekt beradi.
Agar siz barqaror diffuziya bilan bo'yashni sinab ko'rmoqchi bo'lsangiz, quyidagi ko'rsatmalarga rioya qilish sizga mavjud fotosuratlarni bo'yash va o'zgartirishni o'rganishni boshlaydi:
- Huggingface-ga o'ting Barqaror diffuziya bilan bo'yash
- O'zingizning rasmingizni yuklang
- Tasviringizning o'zgartirilishi kerak bo'lgan qismini o'chiring.
- Bu yerga so'rovingizni kiriting (o'chirilayotgan narsa o'rniga nima qo'shmoqchisiz)
- "Yugurish" ni tanlang
Yuqoridagi videoda biz uchta limonli rasmni yuklaymiz va ularni olma bilan almashtiramiz. Shaxsan men buni o'z fotosuratlaringiz va ko'rsatmalaringiz bilan sinab ko'rishni tavsiya qilaman.
Xulosa
Umuman olganda, barqaror diffuziya bilan bo'yash juda haqiqiy bo'lib ko'rinadigan soxta tasvirlar yoki videolarni yaratishning ajoyib usuli hisoblanadi. Yangi texnologik taraqqiyot sari qadam tashlaganimiz sayin, texnologiya taraqqiyoti sari asl va firibgarlikni farqlash tobora qiyinlashib boraveradi.
Swahir
Birinchi yarmi ikkinchi yarmiga mutlaqo aloqasi yo'q. Muallif inpaint qanday ishlashini o'zi ilgari tushuntirgan model doirasida tushuntirib bersa, juda zo'r bo'lardi. Lekin yoq! Bu tasodifiy matnni yig'ish va qayta ishlashdan ko'ra, haqiqiy tushunishni talab qiladi.