През последните години моделите за дълбоко обучение станаха по-ефективни при разбирането на човешкия език.
Помислете за проекти като GPT-3, който вече може да създава цели статии и уебсайтове. GitHub наскоро представи Копилот на GitHub, услуга, която предоставя цели кодови фрагменти, като просто описва типа код, от който се нуждаете.
Изследователи от OpenAI, Facebook и Google работят върху начини да използват задълбочено обучение, за да се справят с друга задача: надписване на изображения. Използвайки голям набор от данни с милиони записи, те са измислили някои изненадващ резултати.
Напоследък тези изследователи се опитаха да изпълнят обратната задача: да създадат изображения от надпис. Възможно ли е вече да се създаде напълно ново изображение от описание?
Това ръководство ще изследва два от най-модерните модели текст към изображение: DALL-E 2 на OpenAI и Imagen AI на Google. Всеки от тези проекти е въвел новаторски методи, които могат да променят обществото, каквото го познаваме.
Но първо, нека разберем какво имаме предвид под генериране на текст към изображение.
Какво представлява генерирането на текст към изображение?
Модели от текст към изображение позволяват на компютрите да създават нови и уникални изображения въз основа на подкани. Хората вече могат да предоставят текстово описание на изображение, което искат да създадат, и моделът ще се опита да създаде визуално изображение, което съответства възможно най-точно на това описание.
Моделите за машинно обучение са използвали използването на големи набори от данни, съдържащи двойки изображение-надпис, за да подобрят допълнително производителността.
Най-много текст към изображение моделите използват трансформаторен езиков модел за тълкуване на подкани. Този тип модел е a невронна мрежа който се опитва да научи контекста и семантичното значение на естествения език.
На следващо място, генеративни модели като напр дифузионни модели и генеративни състезателни мрежи се използват за синтез на изображения.
Какво е DALLE 2?
DALL-E2 е компютърен модел от OpenAI, който беше пуснат през април 2022 г. Моделът беше обучен на база данни от милиони етикетирани картини, за да свързва думи и фрази с изображения.
Потребителите могат да напишат проста фраза, като например „котка яде лазаня“, и DALL-E 2 ще генерира своя собствена интерпретация на това, което фразата се опитва да опише.
Освен създаване на изображения от нулата, DALL-E 2 може също да редактира съществуващи изображения. В примера по-долу DALL-E успя да генерира модифицирано изображение на стая с добавен диван.
DALL-E 2 е само един от многото подобни проекти, пуснати от OpenAI през последните няколко години. GPT-3 на OpenAI стана достоен за новини, когато изглеждаше, че генерира текст с различни стилове.
В момента DALL-E 2 все още е в бета тестване. Заинтересованите потребители могат да се регистрират за своите списък на чакащи и изчакайте достъп.
Как действа тя?
Въпреки че резултатите от DALL-E 2 са впечатляващи, може би се чудите как работи всичко това.
DALL-E 2 е пример за мултимодална реализация на проекта GPT-3 на OpenAI.
Първо, текстовата подкана на потребителя се поставя в текстов енкодер, който преобразува подканата в пространство за представяне. DALL-E 2 използва друг OpenAI модел, наречен CLIP (Contrastive Language-Image Pre-Training), за получаване на семантична информация от естествения език.
След това модел, известен като преди картографира кодирането на текст в кодиране на изображение. Това кодиране на изображението трябва да улови семантичната информация, открита в стъпката на кодиране на текст.
За да създаде действителното изображение, DALL-E 2 използва декодер на изображение, за да генерира визуално изображение, използвайки семантична информация и подробности за кодирането на изображението. OpenAI използва модифицирана версия на ГЛИД модел за генериране на изображение. GLIDE разчита на a дифузионен модел за създаване на изображения.
Добавянето на GLIDE към модела DALL-E 2 позволи по-фотореалистичен изход. Тъй като моделът GLIDE е стохастичен или определен на случаен принцип, моделът DALL-E 2 може лесно да създава вариации, като стартира модела отново и отново.
Ограничения
Въпреки впечатляващите резултати на модела DALL-E 2, той все още е изправен пред някои ограничения.
Правописен текст
Подканите, които се опитват да накарат DALL-E 2 да генерира текст, разкриват, че има затруднения с изписването на думи. Експертите предполагат, че това може да се дължи на факта, че информацията за правописа не е част от набор от данни за обучение.
Композиционно разсъждение
Изследователите отбелязват, че DALL-E 2 все още има известни затруднения с композиционните разсъждения. Казано по-просто, моделът може да разбере отделни аспекти на изображение, докато все още има проблеми с разгадаването на връзките между тези аспекти.
Например, ако се даде подкана „червен куб върху син куб“, DALL-E ще генерира синьо кубче и червено кубче точно, но не успява да ги постави правилно. Също така е наблюдавано, че моделът има затруднения с подкани, които изискват изтегляне на определен брой обекти.
Пристрастия в набора от данни
Ако подканата не съдържа други подробности, наблюдавано е, че DALL-E изобразява бели или западни хора и среда. Това представително отклонение възниква поради изобилието от западноориентирани изображения в набора от данни.
Също така е наблюдавано, че моделът следва половите стереотипи. Например, въвеждането на подкана „стюардеса“ генерира предимно изображения на жени стюардеси.
Какво е Google Imagen AI?
На Google Imagen AI е модел, който има за цел да създава фотореалистични изображения от въведен текст. Подобно на DALL-E, моделът също използва трансформаторни езикови модели за разбиране на текста и разчита на използването на дифузионни модели за създаване на висококачествени изображения.
Заедно с Imagen, Google също пусна бенчмарк за модели текст към изображение, наречен DrawBench. Използвайки DrawBench, те успяха да забележат, че човешките оценители предпочитат изхода на Imagen пред други модели, включително DALL-E 2.
Как действа тя?
Подобно на DALL-E, Imagen първо преобразува потребителската подкана във вграждане на текст чрез енкодер за замразен текст.
Imagen използва дифузионен модел, който научава как да преобразува модел от шум в изображения. Първоначалният резултат от тези изображения е с ниска разделителна способност и по-късно преминава през друг модел, известен като дифузионен модел със супер разделителна способност, за да се увеличи разделителната способност на крайното изображение. Първият модел на дифузия извежда изображение с размери 64 × 64 пиксела и по-късно се увеличава до изображение с висока разделителна способност 1024 × 1024.
Въз основа на изследванията на екипа на Imagen, големите замразени езикови модели, обучени само върху текстови данни, все още са много ефективни текстови енкодери за генериране на текст към изображение.
Проучването също така въвежда концепцията за динамичен праг. Този метод позволява изображенията да изглеждат по-фотореалистични чрез увеличаване на теглата на насочване при генериране на изображението.
Изпълнение на DALLE 2 срещу Imagen
Предварителните резултати от бенчмарка на Google показват, че респондентите предпочитат изображения, генерирани от Imagen пред DALL-E 2 и други модели текст към изображение, като Latent Diffusion и VQGAN+CLIP.
Изходът, идващ от екипа на Imagen, също показа, че техният модел се представя по-добре при изписване на текст, известна слабост на модела DALL-E 2.
Въпреки това, тъй като Google все още не е пуснал модела на обществеността, все още остава да се види колко точни са показателите на Google.
Заключение
Възходът на фотореалистичните модели текст към изображение е противоречив, защото тези модели са узрели за неетична употреба.
Технологията може да доведе до създаване на явно съдържание или като инструмент за дезинформация. Изследователите от Google и OpenAI са наясно с това, което отчасти е причината тези технологии все още да не са достъпни за всички.
Моделите текст към изображение също имат значителни икономически последици. Ще бъдат ли засегнати професии като модели, фотографи и художници, ако модели като DALL-E станат мейнстрийм?
В момента тези модели все още имат ограничения. Задържането на което и да е изображение, генерирано от AI, ще разкрие неговите несъвършенства. Тъй като OpenAI и Google се състезават за най-ефективните модели, може да е въпрос на време да се генерира наистина перфектен резултат: изображение, което е неразличимо от истинското нещо.
Какво мислите, че ще се случи, когато технологиите стигнат толкова далеч?
Оставете коментар