Ви, швидше за все, знаєте, що комп’ютер може описати картинку.
Наприклад, зображення собаки, що грає з вашими дітьми, можна перекласти як «собака і діти в саду». Але чи знаєте ви, що зараз можливий і зворотний шлях? Ви вводите кілька слів, і машина створює нове зображення.
На відміну від пошуку Google, який шукає наявні фотографії, це все свіже. В останні роки OpenAI була однією з провідних організацій, повідомляючи про приголомшливі результати.
Вони навчають свої алгоритми на масивних текстових і графічних базах даних. Вони опублікували статтю про свою модель зображення GLIDE, яка була навчена на сотнях мільйонів фотографій. З точки зору фотореалізму, він перевершує попередню модель «DALL-E».
У цій публікації ми розглянемо OpenAI GLIDE, одну з кількох захоплюючих ініціатив, спрямованих на створення та зміну фотореалістичних зображень за допомогою текстових моделей дифузії. Давайте почнемо.
Що таке Відкрийте AI Glide?
Хоча більшість зображень можна описати словами, створення зображень із введеного тексту вимагає спеціальних знань і значної кількості часу.
Дозволяючи агенту штучного інтелекту створювати фотореалістичні зображення з підказок природною мовою, не тільки дозволяє людям створювати багатий і різноманітний візуальний матеріал з безпрецедентною легкістю, але також дозволяє простіше ітераційне уточнення та дрібнозернистий контроль створених зображень.
GLIDE можна використовувати для редагування наявних фотографій, використовуючи текстові підказки природною мовою для вставки нових об’єктів, створення тіней і відображень, зображення в живописі, І так далі.
Він також може перетворити основні креслення ліній у фотореалістичні фотографії, а також має виняткові можливості виготовлення та ремонту без вибірки для складних ситуацій.
Нещодавні дослідження продемонстрували, що моделі дифузії, засновані на імовірності, також можуть створювати високоякісні синтетичні зображення, особливо в поєднанні з керівним підходом, який балансує різноманітність і точність.
OpenAI опублікував a модель керованої дифузії у травні, що дозволяє моделям дифузії залежати від міток класифікатора. GLIDE покращує цей успіх, запроваджуючи кероване поширення до проблеми створення текстових умовних зображень.
Після навчання моделі дифузії GLIDE з 3.5 мільярдами параметрів з використанням текстового кодера для умов описів природною мовою, дослідники випробували дві альтернативні стратегії наведення: наведення CLIP і наведення без класифікатора.
CLIP — це масштабована техніка для вивчення спільних уявлень тексту та зображень, яка дає оцінку на основі того, наскільки близько зображення знаходиться до підпису.
Команда використовувала цю стратегію у своїх моделях дифузії, замінюючи класифікатор на модель CLIP, яка «керує» моделями. Тим часом наведення без класифікатора – це стратегія для спрямування моделей дифузії, які не передбачають навчання окремого класифікатора.
Архітектура GLIDE
Архітектура GLIDE складається з трьох компонентів: моделі Ablated Diffusion Model (ADM), навчену генерувати зображення розміром 64 × 64, текстової моделі (трансформатора), яка впливає на генерацію зображення за допомогою текстового підказки, і моделі з підвищенням дискретизації, яка перетворює наш маленький розмір 64 × 64. зображення до більш інтерпретаційного розміру 256 x 256 пікселів.
Перші два компоненти працюють разом, щоб керувати процесом створення зображення, щоб воно належним чином відображало текстову підказку, тоді як останній необхідний, щоб зробити зображення, які ми створюємо, легшими для сприйняття. Проект GLIDE був натхненний а звіт, опублікований у 2021 році це показало, що методи ADM перевершують популярні, найсучасніші генеративні моделі з точки зору якості зразка зображення.
Для ADM автори GLIDE використовували ту ж модель ImageNet 64 x 64, що й Dhariwal і Nichol, але з 512 каналами замість 64. У результаті цього модель ImageNet має приблизно 2.3 мільярда параметрів.
Команда GLIDE, на відміну від Дхарівала та Нікола, хотіла мати більший безпосередній контроль над процесом створення зображення, тому вони поєднали візуальну модель з трансформатором, що приділяє увагу. GLIDE дає вам деякий контроль над виходом процесу генерування зображення шляхом обробки запитів на введення тексту.
Це досягається шляхом навчання моделі трансформатора на достатньо великому наборі даних фотографій і підписів (подібно до того, що використовується в проекті DALL-E).
Текст спочатку кодується в серію K токенів, щоб обумовити його. Після цього токени завантажуються в модель-трансформер. Тоді вихід трансформатора можна використовувати двома способами. Для моделі ADM використовується остаточне вбудовування маркерів замість вбудовування класів.
По-друге, останній рівень вбудовування токенів – серія векторів ознак – проектується незалежно на розміри для кожного рівня уваги в моделі ADM і приєднується до кожного контексту уваги.
Насправді це дає змогу моделі ADM створювати зображення з нових комбінацій подібних текстових маркерів унікальним і фотореалістичним способом, на основі засвоєного розуміння вхідних слів та пов’язаних з ними зображень. Цей трансформатор кодування тексту містить 1.2 мільярда параметрів і використовує 24 блоки, що залишилися, шириною 2048.
Нарешті, модель дифузії з підвищенням дискретизації включає близько 1.5 мільярда параметрів і відрізняється від базової моделі тим, що її текстовий кодер менший, з шириною 1024 і 384 базових каналів, порівняно з базовою моделлю. Ця модель, як випливає з назви, допомагає оновити вибірку, щоб покращити інтерпретацію як для машин, так і для людей.
Дифузійна модель
GLIDE створює зображення за допомогою власної версії ADM (ADM-G для «керованого»). Модель ADM-G є модифікацією дифузійної моделі U-net. Модель дифузійної U-мережі суттєво відрізняється від більш поширених методів синтезу зображень, таких як VAE, GAN та трансформатори.
Вони будують марковський ланцюг кроків дифузії, щоб поступово вводити випадковий шум у дані, а потім вчаться повертати процес дифузії та відновлювати необхідні вибірки даних лише з шуму. Діє в два етапи: пряма і зворотна дифузія.
Метод прямого розповсюдження, враховуючи точку даних із справжнього розподілу зразка, додає до вибірки незначну кількість шуму протягом попередньо встановленої серії кроків. Коли кроки збільшуються в розмірах і наближаються до нескінченності, зразок втрачає всі впізнавані характеристики, і послідовність починає нагадувати ізотропну гауссову криву.
Під час зворотної дифузії фаза, модель дифузії вчиться змінювати вплив доданого шуму на зображення та повертати отримане зображення до початкової форми, намагаючись нагадувати початковий розподіл вхідних зразків.
Завершена модель могла б зробити це за допомогою реального гауссового шуму та підказки. Метод ADM-G відрізняється від попереднього тим, що модель, або CLIP, або налаштований трансформатор, впливає на фазу зворотного розповсюдження, використовуючи введені маркери текстових підказок.
Можливості ковзання
1. Генерація іміджу
Найпопулярнішим і широко використовуваним використанням GLIDE, ймовірно, буде синтез зображень. Хоча зображення скромні, а GLIDE має труднощі з тваринами/людськими формами, потенціал створення одноразових зображень майже безмежний.
Він може створювати фотографії тварин, знаменитостей, пейзажі, будівлі та багато іншого, і може робити це в різноманітних художніх стилях, а також фотореалістично. Автори дослідників стверджують, що GLIDE здатний інтерпретувати та адаптувати широкий спектр текстових введених даних у візуальний формат, як показано на прикладах нижче.
2. Розпис ковзанням
Автоматичне малювання фотографій GLIDE, мабуть, є найбільш захоплюючим використанням. GLIDE може прийняти наявне зображення як вхідне значення, обробити його з урахуванням текстових підказок для розташування, які потрібно змінити, а потім з легкістю вносити активні зміни до цих частин.
Його потрібно використовувати разом із моделлю редагування, такою як SDEdit, щоб отримати ще кращі результати. У майбутньому програми, які використовують такі можливості, можуть мати вирішальне значення для розробки підходів до зміни зображення без коду.
Висновок
Тепер, коли ми пройшли цей процес, ви повинні зрозуміти основи роботи GLIDE, а також широту його можливостей у створенні та зміні зображень.
залишити коментар