В останні роки моделі глибокого навчання стали більш ефективними для розуміння людської мови.
Подумайте про такі проекти, як GPT-3, який тепер може створювати цілі статті та веб-сайти. Нещодавно був представлений GitHub Копілот GitHub, сервіс, який надає цілі фрагменти коду, просто описуючи потрібний тип коду.
Дослідники з OpenAI, Facebook і Google працюють над тим, як використовувати глибоке навчання для вирішення іншого завдання: створення підписів до зображень. Використовуючи великий набір даних із мільйонами записів, вони придумали деякі дивно результати.
Останнім часом ці дослідники намагалися виконати протилежне завдання: створити зображення з підпису. Чи можливо тепер створити абсолютно нове зображення з опису?
У цьому посібнику будуть розглянуті дві найдосконаліші моделі перетворення тексту в зображення: DALL-E 2 OpenAI і Imagen AI від Google. Кожен із цих проектів запровадив новаторські методи, які можуть змінити суспільство, яким ми його знаємо.
Але спочатку давайте зрозуміємо, що ми маємо на увазі під генерацією тексту в зображення.
Що таке генерація тексту в зображення?
Моделі з перетворенням тексту в зображення дозволяють комп’ютерам створювати нові та унікальні зображення на основі підказок. Тепер люди можуть надати текстовий опис зображення, яке вони хочуть створити, і модель намагатиметься створити візуальний вигляд, який максимально відповідає цьому опису.
Моделі машинного навчання використовують великі набори даних, що містять пари зображення-підписи, для подальшого підвищення продуктивності.
Більшість тексту в зображення моделі використовують мовну модель трансформатора інтерпретувати підказки. Цей тип моделі є a нейронної мережі який намагається дізнатися контекст і семантичне значення природної мови.
Далі, генеративні моделі, такі як дифузійні моделі і генеративні змагальні мережі використовуються для синтезу зображення.
Що таке DALLE 2?
ВІД-Є 2 — це комп’ютерна модель від OpenAI, яка була випущена в квітні 2022 року. Модель було навчено на базі даних мільйонів зображень із мітками, щоб зв’язувати слова та фрази із зображеннями.
Користувачі можуть ввести просту фразу, наприклад «кіт їсть лазанью», і DALL-E 2 створить власну інтерпретацію того, що ця фраза намагається описати.
Окрім створення зображень з нуля, DALL-E 2 також може редагувати наявні зображення. У наведеному нижче прикладі DALL-E зміг створити змінене зображення кімнати з додатковим диваном.
DALL-E 2 — це лише один із багатьох подібних проектів, які OpenAI випустила за останні кілька років. OpenAI GPT-3 став гідним новин, коли здавалося, що він генерує текст різних стилів.
Наразі DALL-E 2 все ще перебуває в бета-тестуванні. Зацікавлені користувачі можуть зареєструватися лист очікування і чекати доступу.
Як це працює?
Хоча результати DALL-E 2 вражають, вам може бути цікаво, як це все працює.
DALL-E 2 є прикладом мультимодальної реалізації проекту OpenAI GPT-3.
По-перше, текстова підказка користувача поміщається в текстовий кодер, який відображає підказку в простір представлення. DALL-E 2 використовує іншу модель OpenAI під назвою CLIP (Contrastive Language-Image Pre-Training) для отримання семантичної інформації з природної мови.
Далі модель, відома як попередній відображає кодування тексту в кодування зображення. Це кодування зображення має фіксувати семантичну інформацію, знайдену на етапі кодування тексту.
Щоб створити фактичне зображення, DALL-E 2 використовує декодер зображень для створення візуального зображення з використанням семантичної інформації та деталей кодування зображення. OpenAI використовує модифіковану версію ГЛИД модель для створення зображення. GLIDE покладається на a дифузійна модель для створення образів.
Додавання GLIDE до моделі DALL-E 2 дозволило отримати більш фотореалістичне зображення. Оскільки модель GLIDE є стохастичною або визначеною випадковим чином, модель DALL-E 2 може легко створювати варіації, запускаючи модель знову і знову.
Недоліки
Незважаючи на вражаючі результати моделі DALL-E 2, вона все ще стикається з деякими обмеженнями.
Орфографічний текст
Підказки, які намагаються змусити DALL-E 2 генерувати текст, показують, що він має труднощі з написанням слів. Експерти припускають, що це може бути тому, що інформація про правопис не є частиною навчальний набір даних.
Композиційне міркування
Дослідники відзначають, що DALL-E 2 все ще має певні труднощі з композиційними міркуваннями. Простіше кажучи, модель може розуміти окремі аспекти зображення, але все ще має проблеми з визначенням співвідношення між цими аспектами.
Наприклад, якщо отримати підказку «червоний куб поверх синього куба», DALL-E згенерує синій куб і червоний куб точно, але не зможе правильно їх розмістити. Також було помічено, що модель має труднощі з підказками, які вимагають витягнути певну кількість об’єктів.
Зміщення в наборі даних
Якщо підказка не містить інших деталей, було помічено, що DALL-E зображує білих або західних людей і оточення. Ця упередженість репрезентації виникає через велику кількість зображень, орієнтованих на Захід, у наборі даних.
Також було помічено, що модель слідує гендерним стереотипам. Наприклад, введення підказки «стюардеса» здебільшого створює зображення жінок-стюард.
Що таке Google Imagen AI?
Google, Imagen AI це модель, яка спрямована на створення фотореалістичних зображень із введеного тексту. Подібно до DALL-E, модель також використовує моделі мови трансформатора для розуміння тексту та покладається на використання моделей дифузії для створення високоякісних зображень.
Поряд із Imagen, Google також випустив еталон для моделей тексту в зображення під назвою DrawBench. Використовуючи DrawBench, вони змогли помітити, що оцінювачі людей віддають перевагу виходу Imagen перед іншими моделями, включаючи DALL-E 2.
Як це працює?
Подібно до DALL-E, Imagen спочатку перетворює підказку користувача у текст, який вбудовується через кодер замороженого тексту.
Imagen використовує модель дифузії, яка вчиться перетворювати шаблон шуму в зображення. Початковий вихід цих зображень має низьку роздільну здатність і згодом передається через іншу модель, відому як модель дифузії з надлишковою роздільною здатністю, щоб збільшити роздільну здатність кінцевого зображення. Перша дифузійна модель виводить зображення розміром 64×64 пікселів, а потім роздувається до зображення з високою роздільною здатністю 1024×1024.
На основі досліджень команди Imagen, великі заморожені мовні моделі, навчені лише на текстових даних, все ще є високоефективними кодерами тексту для генерації тексту в зображення.
У дослідженні також вводиться поняття динамічного порогового значення. Цей метод дозволяє зображенням виглядати більш фотореалістичними, збільшуючи вагові значення під час створення зображення.
Продуктивність DALLE 2 проти Imagen
Попередні результати тесту Google показують, що люди-респонденти віддають перевагу зображенням, створеним Imagen, ніж DALL-E 2 та іншим моделям тексту в зображення, таким як Latent Diffusion і VQGAN+CLIP.
Результати, отримані від команди Imagen, також показали, що їхня модель працює краще при написанні тексту, що є відомим недоліком моделі DALL-E 2.
Однак, оскільки Google ще не оприлюднив модель для широкого загалу, ще потрібно з’ясувати, наскільки точними є тести Google.
Висновок
Зростання фотореалістичних моделей текст-зображення викликає суперечки, оскільки ці моделі дозріли для неетичного використання.
Технологія може призвести до створення відвертого вмісту або як інструмент для дезінформації. Дослідники як з Google, так і з OpenAI знають про це, частково тому ці технології досі доступні не всім.
Моделі тексту в зображення також мають значні економічні наслідки. Чи постраждають такі професії, як моделі, фотографи та художники, якщо такі моделі, як DALL-E, стануть основними?
На даний момент у цих моделей все ще є обмеження. Якщо тримати будь-яке зображення, створене штучним інтелектом, для розгляду, це виявить його недоліки. Оскільки OpenAI і Google змагаються за найефективніші моделі, може бути питанням часу, перш ніж буде створений справді ідеальний результат: зображення, яке неможливо відрізнити від реального.
Як ви думаєте, що станеться, коли технології підуть так далеко?
залишити коментар