Вы, скорее всего, знаете, что компьютер может описать картинку.
Например, изображение собаки, играющей с вашими детьми, можно перевести как «собака и дети в саду». Но знаете ли вы, что теперь возможен и обратный путь? Вы вводите несколько слов, и машина создает новую картинку.
В отличие от поиска Google, который ищет существующие фотографии, здесь все свежее. В последние годы OpenAI была одной из ведущих организаций, сообщая о ошеломляющих результатах.
Они обучают свои алгоритмы на огромных текстовых и графических базах данных. Они опубликовали статью о своей модели изображения GLIDE, которая была обучена на сотнях миллионов фотографий. С точки зрения фотореализма он превосходит предыдущую модель DALL-E.
В этом посте мы рассмотрим GLIDE от OpenAI, одну из нескольких увлекательных инициатив, направленных на создание и изменение фотореалистичных изображений с помощью моделей распространения с текстовым управлением. Давай начнем.
Что такое Открытое скольжение ИИ?
Хотя большинство изображений можно описать словами, создание изображений из текстового ввода требует специальных знаний и значительного количества времени.
Предоставление агенту ИИ возможности создавать фотореалистичные изображения из подсказок на естественном языке не только позволяет людям создавать богатый и разнообразный визуальный материал с беспрецедентной легкостью, но также упрощает итеративную доработку и точный контроль созданных изображений.
GLIDE можно использовать для редактирования существующих фотографий, используя текстовые подсказки на естественном языке для вставки новых объектов, создания теней и отражений, выполнения изображение, И так далее.
Он также может превращать простые линейные чертежи в фотореалистичные фотографии и обладает исключительными возможностями производства и ремонта без единого образца в сложных ситуациях.
Недавние исследования показали, что модели распространения, основанные на правдоподобии, также могут создавать высококачественные синтетические изображения, особенно в сочетании с направляющим подходом, который уравновешивает разнообразие и точность.
OpenAI опубликовал модель управляемой диффузии в мае, что позволяет моделям распространения зависеть от меток классификатора. GLIDE расширяет этот успех, добавляя управляемую диффузию к проблеме создания текстовых изображений.
После обучения модели распространения GLIDE с 3.5 миллиардами параметров с использованием текстового кодировщика для обработки описаний на естественном языке исследователи протестировали две альтернативные стратегии управления: руководство CLIP и руководство без классификатора.
CLIP — это масштабируемый метод обучения совместному представлению текста и изображений, который выставляет оценку в зависимости от того, насколько близко изображение находится к подписи.
Команда использовала эту стратегию в своих моделях распространения, заменив классификатор моделью CLIP, которая «направляет» модели. Между тем, руководство без классификатора — это стратегия управления диффузионными моделями, которая не требует обучения отдельного классификатора.
GLIDE Архитектура
Архитектура GLIDE состоит из трех компонентов: модели рассеянного рассеяния (ADM), обученной генерировать изображение 64 × 64, текстовой модели (преобразователя), которая влияет на генерацию изображения с помощью текстовой подсказки, и модели повышения дискретизации, которая преобразует наше маленькое изображение 64 × 64. изображения в более интерпретируемые 256 x 256 пикселей.
Первые два компонента работают вместе, чтобы управлять процессом создания изображения, чтобы он надлежащим образом отражал текстовую подсказку, в то время как последний необходим для облегчения понимания создаваемых нами изображений. Проект GLIDE был вдохновлен отчет опубликован в 2021 г. это показало, что методы ADM превосходят популярные в настоящее время современные генеративные модели с точки зрения качества выборки изображения.
Для ADM авторы GLIDE использовали ту же модель ImageNet 64 x 64, что и Dhariwal и Nichol, но с 512 каналами вместо 64. В результате модель ImageNet имеет примерно 2.3 миллиарда параметров.
Команда GLIDE, в отличие от Дхаривала и Никола, хотела иметь больший прямой контроль над процессом создания изображения, поэтому они объединили визуальную модель с преобразователем с поддержкой внимания. GLIDE дает вам некоторый контроль над выводом процесса генерации изображений путем обработки подсказок ввода текста.
Это достигается путем обучения модели трансформатора на достаточно большом наборе данных фотографий и подписей (аналогично тому, что используется в проекте DALL-E).
Текст изначально кодируется в серию K токенов, чтобы обусловить его. После этого токены загружаются в модель-трансформер. Выход трансформатора можно использовать двумя способами. Для модели ADM вместо внедрения класса используется финальное встраивание токена.
Во-вторых, последний слой встраивания токенов — серия векторов признаков — проецируется независимо на размеры для каждого уровня внимания в модели ADM и объединяется с каждым контекстом внимания.
На самом деле это позволяет модели ADM создавать изображение из новых комбинаций похожих текстовых токенов уникальным и фотореалистичным образом на основе изученного понимания входных слов и связанных с ними изображений. Этот преобразователь кодирования текста содержит 1.2 миллиарда параметров и использует 24 оставшихся блока шириной 2048.
Наконец, модель диффузии с повышающей дискретизацией включает около 1.5 миллиарда параметров и отличается от базовой модели тем, что ее кодировщик текста меньше, с шириной 1024 и 384 базовых канала по сравнению с базовой моделью. Эта модель, как видно из названия, помогает обновить образец, чтобы улучшить интерпретируемость как для машин, так и для людей.
Диффузионная модель
GLIDE генерирует изображения, используя собственную версию ADM (ADM-G для «управляемого»). Модель ADM-G является модификацией диффузионной модели U-net. Диффузионная модель U-net резко отличается от более распространенных методов синтеза изображений, таких как VAE, GAN и преобразователи.
Они строят марковскую цепь шагов диффузии, чтобы постепенно добавлять случайный шум в данные, а затем учатся обращать процесс диффузии вспять и восстанавливать необходимые выборки данных только из шума. Он работает в два этапа: прямая и обратная диффузия.
Метод прямой диффузии, учитывая точку данных из истинного распределения выборки, добавляет небольшое количество шума к выборке в течение заданного ряда шагов. По мере увеличения размера ступенек и приближения к бесконечности образец теряет все распознаваемые характеристики, и последовательность начинает напоминать изотропную кривую Гаусса.
Во время обратной диффузии фаза, диффузионная модель учится обращать влияние добавленного шума на изображения и возвращать полученное изображение к его исходной форме, пытаясь походить на исходное распределение входной выборки.
Завершенная модель могла бы сделать это с реальным входным шумом Гаусса и подсказкой. Метод ADM-G отличается от предыдущего тем, что модель, будь то CLIP или настраиваемый преобразователь, влияет на фазу обратной диффузии, используя вводимые маркеры текстовых подсказок.
Возможности планирования
1. Генерация изображения
Вероятно, самым популярным и широко используемым применением GLIDE будет синтез изображений. Хотя изображения скромные, а GLIDE испытывает трудности с изображениями животных и людей, потенциал для создания одноразовых изображений практически безграничен.
Он может создавать фотографии животных, знаменитостей, пейзажей, зданий и многого другого в различных художественных стилях, а также фотореалистично. Авторы исследователей утверждают, что GLIDE способен интерпретировать и адаптировать широкий спектр текстовых входных данных в визуальный формат, как показано в примерах ниже.
2. Скользящее рисование
Автоматическое закрашивание фотографий в GLIDE, пожалуй, самое увлекательное применение. GLIDE может взять существующее изображение в качестве входных данных, обработать его с учетом текстовой подсказки для мест, которые необходимо изменить, а затем с легкостью внести активные изменения в эти части.
Его необходимо использовать в сочетании с моделью редактирования, такой как SDEdit, для получения еще лучших результатов. В будущем приложения, использующие подобные возможности, могут сыграть решающую роль в разработке подходов к изменению изображений без кода.
Заключение
Теперь, когда мы прошли через этот процесс, вы должны понять основы работы GLIDE, а также широту его возможностей в создании изображений и модификации изображений.
Оставьте комментарий