So'nggi yillarda chuqur o'rganish modellari inson tilini tushunishda samaraliroq bo'ldi.
kabi loyihalarni o'ylab ko'ring Xetafe-3, bu endi butun maqolalar va veb-saytlarni yaratishga qodir. GitHub yaqinda taqdim etildi GitHub kopiloti, sizga kerak bo'lgan kod turini oddiygina tavsiflash orqali butun kod parchalarini taqdim etadigan xizmat.
OpenAI, Facebook va Google tadqiqotchilari chuqur o‘rganishdan boshqa vazifani bajarish uchun foydalanish yo‘llari ustida ishlamoqda: tasvirga taglavhalar. Millionlab yozuvlari bo'lgan katta ma'lumotlar to'plamidan foydalanib, ular ba'zilarini o'ylab topdilar ajablantiradigan natijalar.
So'nggi paytlarda bu tadqiqotchilar qarama-qarshi vazifani bajarishga harakat qilishdi: sarlavhadan tasvirlar yaratish. Endi tavsifdan butunlay yangi tasvir yaratish mumkinmi?
Ushbu qo'llanma ikkita eng ilg'or matndan tasvirga modellarini o'rganadi: OpenAI ning DALL-E 2 va Google Imagen AI. Ushbu loyihalarning har biri biz bilgan jamiyatni o'zgartirishi mumkin bo'lgan innovatsion usullarni joriy qildi.
Lekin, avvalo, matndan tasvirga yaratish deganda nimani nazarda tutayotganimizni tushunib olaylik.
Matnni tasvirga yaratish nima?
Matnni tasvirga o'tkazish modellari kompyuterlarga takliflar asosida yangi va noyob tasvirlarni yaratishga imkon beradi. Endi odamlar o'zlari yaratmoqchi bo'lgan tasvirning matnli tavsifini taqdim etishlari mumkin va model ushbu tavsifga imkon qadar yaqinroq mos keladigan ingl.
Mashinani o'rganish modellari ishlashni yanada yaxshilash uchun tasvir-tasvir juftliklarini o'z ichiga olgan katta ma'lumotlar to'plamidan foydalanishga yordam berdi.
Ko'pincha matndan rasmga modellar transformator tili modelidan foydalanadi takliflarni talqin qilish. Ushbu turdagi model a neyron tarmoq tabiiy tilning konteksti va semantik ma'nosini o'rganishga harakat qiladi.
Keyingi, kabi generativ modellar diffuziya modellari va generativ raqib tarmoqlari tasvir sintezi uchun ishlatiladi.
DALLE 2 nima?
DALL-E2 Bu OpenAI kompaniyasi tomonidan 2022-yil aprel oyida chiqarilgan kompyuter modelidir. Model soʻz va iboralarni tasvirlar bilan bogʻlash uchun millionlab etiketli rasmlardan iborat maʼlumotlar bazasida oʻrgatilgan.
Foydalanuvchilar “lazanya yeyayotgan mushuk” kabi oddiy iborani yozishlari mumkin va DALL-E 2 ibora tasvirlamoqchi bo‘lgan narsaning o‘z talqinini yaratadi.
Tasvirlarni noldan yaratishdan tashqari, DALL-E 2 mavjud rasmlarni ham tahrirlashi mumkin. Quyidagi misolda DALL-E qo'shilgan divanli xonaning o'zgartirilgan tasvirini yaratishga muvaffaq bo'ldi.
DALL-E 2 - OpenAI so'nggi bir necha yil ichida chiqargan shunga o'xshash ko'plab loyihalardan biri. OpenAI-ning GPT-3-i har xil uslubdagi matnni yaratganda yangilikka aylandi.
Hozirda DALL-E 2 hali ham beta-sinovda. Qiziqqan foydalanuvchilar o'zlariga ro'yxatdan o'tishlari mumkin kutish ro'yxati va kirishni kuting.
Bu qanday ishlaydi?
DALL-E 2 natijalari ta'sirli bo'lsa-da, siz bularning barchasi qanday ishlashiga hayron bo'lishingiz mumkin.
DALL-E 2 OpenAI ning GPT-3 loyihasining multimodal amalga oshirilishiga misoldir.
Birinchidan, foydalanuvchining matn so'rovi so'rovni vakillik maydoniga moslashtiradigan matn kodlovchisiga joylashtiriladi. DALL-E 2 tabiiy tildan semantik ma'lumot olish uchun CLIP (Contrastive Language-Image Pre-Training) deb nomlangan boshqa OpenAI modelidan foydalanadi.
Keyinchalik, deb nomlanuvchi model avvalgi matn kodlashni tasvir kodlashiga moslashtiradi. Ushbu tasvirni kodlash matnni kodlash bosqichida topilgan semantik ma'lumotni olishi kerak.
Haqiqiy tasvirni yaratish uchun DALL-E 2 semantik ma'lumot va tasvirni kodlash tafsilotlari yordamida vizual yaratish uchun tasvir dekoderidan foydalanadi. OpenAI ning o'zgartirilgan versiyasidan foydalanadi suzish tasvirni yaratish uchun model. GLIDE a ga tayanadi diffuziya modeli tasvirlarni yaratish uchun.
DALL-E 2 modeliga GLIDE qo'shilishi ko'proq fotorealistik chiqish imkonini berdi. GLIDE modeli stokastik yoki tasodifiy aniqlanganligi sababli, DALL-E 2 modeli modelni qayta-qayta ishga tushirish orqali osongina variatsiyalarni yaratishi mumkin.
cheklashlar
DALL-E 2 modelining ta'sirchan natijalariga qaramay, u hali ham ba'zi cheklovlarga duch kelmoqda.
Imlo matni
DALL-E 2 ni matn yaratishga urinayotgan ko'rsatmalar uning so'zlarni yozishda qiynalayotganini ko'rsatadi. Mutaxassislarning fikricha, bu imlo ma'lumotlarining bir qismi emasligi sababli bo'lishi mumkin ta'lim ma'lumotlar to'plami.
Kompozitsion fikrlash
Tadqiqotchilarning ta'kidlashicha, DALL-E 2 hali ham kompozitsion fikrlashda biroz qiyinchiliklarga duch kelmoqda. Oddiy qilib aytganda, model tasvirning individual tomonlarini tushunishi mumkin, shu bilan birga bu jihatlar o'rtasidagi munosabatlarni aniqlashda muammolar mavjud.
Misol uchun, agar "ko'k kubning tepasida qizil kub" so'ralsa, DALL-E ko'k kub va qizil kubni aniq hosil qiladi, lekin ularni to'g'ri joylashtira olmaydi. Model, shuningdek, ma'lum miqdordagi ob'ektlarni chizishni talab qiladigan takliflar bilan bog'liq qiyinchiliklarga duch kelishi kuzatilgan.
Ma'lumotlar to'plamidagi noaniqlik
Agar so'rovda boshqa tafsilotlar bo'lmasa, DALL-E oq yoki g'arbiy odamlar va muhitlarni tasvirlashi kuzatilgan. Ushbu vakillik tarafkashligi ma'lumotlar to'plamida G'arbga qaratilgan tasvirlarning ko'pligi tufayli yuzaga keladi.
Modelda gender stereotiplariga amal qilish ham kuzatilgan. Masalan, “styuardessa” so‘rovini kiritish asosan ayol styuardessalarning tasvirini yaratadi.
Google Imagen AI nima?
Google Tasviriy AI kiritilgan matndan fotorealistik tasvirlarni yaratishga qaratilgan model. DALL-E ga o'xshab, model matnni tushunish uchun transformator tili modellaridan ham foydalanadi va yuqori sifatli tasvirlarni yaratish uchun diffuziya modellaridan foydalanishga tayanadi.
Imagen bilan bir qatorda, Google DrawBench deb nomlangan matndan tasvirga modellar uchun benchmarkni ham chiqardi. DrawBench-dan foydalanib, ular inson baholovchilari DALL-E 2 kabi boshqa modellardan Imagen chiqishini afzal ko'rishlarini kuzatishga muvaffaq bo'lishdi.
Bu qanday ishlaydi?
DALL-E ga o'xshab, Imagen birinchi bo'lib foydalanuvchi so'rovini muzlatilgan matn kodlovchisi orqali o'rnatilgan matnga aylantiradi.
Imagen shovqin namunasini tasvirga aylantirishni o'rganadigan diffuziya modelidan foydalanadi. Ushbu tasvirlarning dastlabki chiqishi past piksellar soniga ega va keyinchalik yakuniy tasvirning piksellar sonini oshirish uchun super rezolyutsiyali diffuziya modeli deb nomlanuvchi boshqa model orqali o'tkaziladi. Birinchi diffuziya modeli 64 × 64 pikselli tasvirni chiqaradi va keyinchalik yuqori aniqlikdagi 1024 × 1024 tasvirga qadar portlatiladi.
Imagen jamoasining tadqiqotlariga asoslanib, faqat matn ma'lumotlari asosida o'qitilgan katta muzlatilgan til modellari hali ham matndan tasvirga yaratish uchun juda samarali matn kodlovchilari hisoblanadi.
Tadqiqot shuningdek, dinamik chegara tushunchasini ham taqdim etadi. Ushbu usul tasvirni yaratishda yo'riqnoma og'irliklarini oshirish orqali tasvirlarni yanada fotorealistik ko'rinishga imkon beradi.
DALLE 2 ning Imagenga qarshi ishlashi
Google benchmarkining dastlabki natijalari shuni ko'rsatadiki, respondentlar DALL-E 2 o'rniga Imagen tomonidan yaratilgan tasvirlarni va Latent Diffusion va VQGAN+CLIP kabi boshqa matndan tasvirga modellarni afzal ko'rishadi.
Imagen jamoasidan olingan natijalar, shuningdek, ularning modeli matnni yozishda yaxshiroq ishlashini ko'rsatdi, bu DALL-E 2 modelining ma'lum zaif tomoni.
Biroq, Google hali bu modelni ommaga e'lon qilmaganligi sababli, Google ko'rsatkichlari qanchalik to'g'ri ekanligini hali ko'rish kerak.
Xulosa
Fotorealistik matndan tasvirga modellarning ko'tarilishi munozarali, chunki bu modellar axloqsiz foydalanish uchun pishgan.
Texnologiya aniq kontent yaratishga yoki dezinformatsiya vositasi sifatida foydalanishga olib kelishi mumkin. Google va OpenAI tadqiqotchilari buni bilishadi, shuning uchun ham bu texnologiyalar hamma uchun ochiq emas.
Matnni tasvirga o'tkazish modellari ham muhim iqtisodiy ta'sirga ega. DALL-E kabi modellar asosiy oqimga aylansa, modellar, fotograflar va rassomlar kabi kasblarga ta'sir qiladimi?
Ayni paytda bu modellar hali ham cheklovlarga ega. AI tomonidan yaratilgan har qanday tasvirni tekshirish uchun ushlab turish uning kamchiliklarini ochib beradi. OpenAI ham, Google ham eng samarali modellar uchun raqobatlashayotgan bir paytda, chinakam mukammal mahsulot ishlab chiqarilishi vaqt masalasi bo'lishi mumkin: haqiqiy narsadan ajratib bo'lmaydigan tasvir.
Sizningcha, texnologiya shunchalik uzoqqa ketsa nima bo'ladi?
Leave a Reply