Open AI Glide (Diffusion) — создание изображений с помощью простого ввода текста

Содержание[Скрывать][Показывать]

Что такое Open AI Glide?
GLIDE Архитектура
Диффузионная модель
Возможности планирования+-
- 1. Генерация изображения
- 2. Скользящее рисование
Заключение

Вы, скорее всего, знаете, что компьютер может описать картинку.

Например, изображение собаки, играющей с вашими детьми, можно перевести как «собака и дети в саду». Но знаете ли вы, что теперь возможен и обратный путь? Вы вводите несколько слов, и машина создает новую картинку.

В отличие от поиска Google, который ищет существующие фотографии, здесь все свежее. В последние годы OpenAI была одной из ведущих организаций, сообщая о ошеломляющих результатах.

Они обучают свои алгоритмы на огромных текстовых и графических базах данных. Они опубликовали статью о своей модели изображения GLIDE, которая была обучена на сотнях миллионов фотографий. С точки зрения фотореализма он превосходит предыдущую модель DALL-E.

В этом посте мы рассмотрим GLIDE от OpenAI, одну из нескольких увлекательных инициатив, направленных на создание и изменение фотореалистичных изображений с помощью моделей распространения с текстовым управлением. Давай начнем.

Что такое Открытое скольжение ИИ?

Хотя большинство изображений можно описать словами, создание изображений из текстового ввода требует специальных знаний и значительного количества времени.

Предоставление агенту ИИ возможности создавать фотореалистичные изображения из подсказок на естественном языке не только позволяет людям создавать богатый и разнообразный визуальный материал с беспрецедентной легкостью, но также упрощает итеративную доработку и точный контроль созданных изображений.

GLIDE можно использовать для редактирования существующих фотографий, используя текстовые подсказки на естественном языке для вставки новых объектов, создания теней и отражений, выполнения изображение, И так далее.

Он также может превращать простые линейные чертежи в фотореалистичные фотографии и обладает исключительными возможностями производства и ремонта без единого образца в сложных ситуациях.

Недавние исследования показали, что модели распространения, основанные на правдоподобии, также могут создавать высококачественные синтетические изображения, особенно в сочетании с направляющим подходом, который уравновешивает разнообразие и точность.

Открытое скольжение ИИ

OpenAI опубликовал модель управляемой диффузии в мае, что позволяет моделям распространения зависеть от меток классификатора. GLIDE расширяет этот успех, добавляя управляемую диффузию к проблеме создания текстовых изображений.

После обучения модели распространения GLIDE с 3.5 миллиардами параметров с использованием текстового кодировщика для обработки описаний на естественном языке исследователи протестировали две альтернативные стратегии управления: руководство CLIP и руководство без классификатора.

CLIP — это масштабируемый метод обучения совместному представлению текста и изображений, который выставляет оценку в зависимости от того, насколько близко изображение находится к подписи.

Команда использовала эту стратегию в своих моделях распространения, заменив классификатор моделью CLIP, которая «направляет» модели. Между тем, руководство без классификатора — это стратегия управления диффузионными моделями, которая не требует обучения отдельного классификатора.

GLIDE Архитектура

Архитектура GLIDE состоит из трех компонентов: модели рассеянного рассеяния (ADM), обученной генерировать изображение 64 × 64, текстовой модели (преобразователя), которая влияет на генерацию изображения с помощью текстовой подсказки, и модели повышения дискретизации, которая преобразует наше маленькое изображение 64 × 64. изображения в более интерпретируемые 256 x 256 пикселей.

Первые два компонента работают вместе, чтобы управлять процессом создания изображения, чтобы он надлежащим образом отражал текстовую подсказку, в то время как последний необходим для облегчения понимания создаваемых нами изображений. Проект GLIDE был вдохновлен отчет опубликован в 2021 г. это показало, что методы ADM превосходят популярные в настоящее время современные генеративные модели с точки зрения качества выборки изображения.

Для ADM авторы GLIDE использовали ту же модель ImageNet 64 x 64, что и Dhariwal и Nichol, но с 512 каналами вместо 64. В результате модель ImageNet имеет примерно 2.3 миллиарда параметров.

Команда GLIDE, в отличие от Дхаривала и Никола, хотела иметь больший прямой контроль над процессом создания изображения, поэтому они объединили визуальную модель с преобразователем с поддержкой внимания. GLIDE дает вам некоторый контроль над выводом процесса генерации изображений путем обработки подсказок ввода текста.

Сравнение скольжения с другими моделями

Это достигается путем обучения модели трансформатора на достаточно большом наборе данных фотографий и подписей (аналогично тому, что используется в проекте DALL-E).

Текст изначально кодируется в серию K токенов, чтобы обусловить его. После этого токены загружаются в модель-трансформер. Выход трансформатора можно использовать двумя способами. Для модели ADM вместо внедрения класса используется финальное встраивание токена.

Во-вторых, последний слой встраивания токенов — серия векторов признаков — проецируется независимо на размеры для каждого уровня внимания в модели ADM и объединяется с каждым контекстом внимания.

На самом деле это позволяет модели ADM создавать изображение из новых комбинаций похожих текстовых токенов уникальным и фотореалистичным образом на основе изученного понимания входных слов и связанных с ними изображений. Этот преобразователь кодирования текста содержит 1.2 миллиарда параметров и использует 24 оставшихся блока шириной 2048.

Наконец, модель диффузии с повышающей дискретизацией включает около 1.5 миллиарда параметров и отличается от базовой модели тем, что ее кодировщик текста меньше, с шириной 1024 и 384 базовых канала по сравнению с базовой моделью. Эта модель, как видно из названия, помогает обновить образец, чтобы улучшить интерпретируемость как для машин, так и для людей.

Маленькие изображения с фильтром Glide

Диффузионная модель

GLIDE генерирует изображения, используя собственную версию ADM (ADM-G для «управляемого»). Модель ADM-G является модификацией диффузионной модели U-net. Диффузионная модель U-net резко отличается от более распространенных методов синтеза изображений, таких как VAE, GAN и преобразователи.

Диффузионная модель

Они строят марковскую цепь шагов диффузии, чтобы постепенно добавлять случайный шум в данные, а затем учатся обращать процесс диффузии вспять и восстанавливать необходимые выборки данных только из шума. Он работает в два этапа: прямая и обратная диффузия.

Метод прямой диффузии, учитывая точку данных из истинного распределения выборки, добавляет небольшое количество шума к выборке в течение заданного ряда шагов. По мере увеличения размера ступенек и приближения к бесконечности образец теряет все распознаваемые характеристики, и последовательность начинает напоминать изотропную кривую Гаусса.

Изображение скольжения без шумов

Во время обратной диффузии фаза, диффузионная модель учится обращать влияние добавленного шума на изображения и возвращать полученное изображение к его исходной форме, пытаясь походить на исходное распределение входной выборки.

Завершенная модель могла бы сделать это с реальным входным шумом Гаусса и подсказкой. Метод ADM-G отличается от предыдущего тем, что модель, будь то CLIP или настраиваемый преобразователь, влияет на фазу обратной диффузии, используя вводимые маркеры текстовых подсказок.

Возможности планирования

1. Генерация изображения

Вероятно, самым популярным и широко используемым применением GLIDE будет синтез изображений. Хотя изображения скромные, а GLIDE испытывает трудности с изображениями животных и людей, потенциал для создания одноразовых изображений практически безграничен.

Генерация изображения с помощью GLIDE

Он может создавать фотографии животных, знаменитостей, пейзажей, зданий и многого другого в различных художественных стилях, а также фотореалистично. Авторы исследователей утверждают, что GLIDE способен интерпретировать и адаптировать широкий спектр текстовых входных данных в визуальный формат, как показано в примерах ниже.

2. Скользящее рисование

Автоматическое закрашивание фотографий в GLIDE, пожалуй, самое увлекательное применение. GLIDE может взять существующее изображение в качестве входных данных, обработать его с учетом текстовой подсказки для мест, которые необходимо изменить, а затем с легкостью внести активные изменения в эти части.

Его необходимо использовать в сочетании с моделью редактирования, такой как SDEdit, для получения еще лучших результатов. В будущем приложения, использующие подобные возможности, могут сыграть решающую роль в разработке подходов к изменению изображений без кода.

Заключение

Теперь, когда мы прошли через этот процесс, вы должны понять основы работы GLIDE, а также широту его возможностей в создании изображений и модификации изображений.

Open AI Glide (Diffusion) — создание изображений с помощью простого ввода текста

Что такое Открытое скольжение ИИ?

GLIDE Архитектура

Диффузионная модель

Возможности планирования

1. Генерация изображения

2. Скользящее рисование

Заключение

О нас сойка

Другие статьи о HashDork:

Как уменьшить галлюцинации в вашем ИИ

Колоссян против Хейгена

Этот информационный бюллетень Future Tech не отстой

Open AI Glide (Diffusion) — создание изображений с помощью простого ввода текста

Что такое Открытое скольжение ИИ?

GLIDE Архитектура

Диффузионная модель

Возможности планирования

1. Генерация изображения

2. Скользящее рисование

Заключение

О нас сойка

Другие статьи о HashDork:

Как уменьшить галлюцинации в вашем ИИ

10 лучших инструментов искусственного интеллекта для социальных сетей

Колоссян против Хейгена

10 лучших инструментов для создания анимационных видео с искусственным интеллектом

Читатель взаимодействий

Оставьте комментарий Отменить ответ

Этот информационный бюллетень Future Tech не отстой