Содержание[Скрывать][Показывать]
Новый и улучшенный ИИ обладает улучшенными способностями, пониманием и способностью создавать изображения с более высоким разрешением. Возможно, в последнее время вы сталкивались с некоторыми странными и забавными изображениями, гуляющими по Интернету.
Собака сиба-ину одета в берет и черную водолазку. И морская выдра в манере голландского художника Вермеера «Девушка с жемчужной сережкой». И есть чашка супа, похожая на мохнатого монстра.
эти изображения не были созданы человеком-художником.
Вместо этого их создала DALL-E 2, новая система искусственного интеллекта, которая может преобразовывать текстовые описания в изображения.
Просто запишите то, что вы хотите увидеть, и ИИ создаст это для вас — с яркими деталями, в отличном качестве и, в некоторых случаях, с подлинной изобретательностью. В этом посте мы подробно рассмотрим последнее исследование OpenAI, DALL.E 2, а также то, как оно работает, и многое другое. Давайте начнем.
Итак, что именно ДАЛЛ.Э 2?
DALL-E 2 — это «генеративная модель», тип алгоритма машинного обучения, который генерирует сложные выходные данные, а не выполняет задачи прогнозирования или классификации входных данных.
Вы предоставляете DALL-E 2 письменное описание, и он создает соответствующую ему картинку. Сочетая концепции, качества и стили, DALLE 2 от OpenAI может создавать инновационную реалистичную графику и искусство на основе базового лингвистического описания.
Последняя версия, DALLE 2, считается более универсальной, способной создавать изображения из подписей с более высоким разрешением и в более широком спектре творческих стилей. Например, изображения ниже (из сообщения в блоге DALL-E 2) созданы по описанию «Астронавт верхом на лошади».
Одно описание заканчивается «как карандашный набросок», а другое — «фотореалистично».
Он также может изменять существующие фотографии с удивительной точностью. Таким образом, вы можете добавлять или удалять элементы, сохраняя при этом цвета, отражения и тени, сохраняя при этом исходный вид изображения.
Как это работает?
В DALL-E 2 используются модели CLIP и диффузионная, две сложные глубокое обучение подходы, разработанные в последние годы. Однако он основан на том же понятии, что и все другие глубинные нейронные сети: репрезентативное обучение. CLIP одновременно тренирует два нейронные сети на картинках и подписях.
Одна сеть изучает визуальные представления на картинке, а другая изучает текстовые представления. Во время обучения две сети пытаются изменить свои параметры, чтобы сопоставимые изображения и описания приводили к похожим встраиваниям.
«Диффузия», тип генеративной модели, которая учится создавать изображения, постепенно зашумляя и удаляя шум из обучающих выборок, — это еще один подход к машинному обучению, используемый в DALL-E 2. Диффузионные модели похожи на автокодировщики тем, что они преобразуют входные данные в представление внедрения, а затем используйте информацию о внедрении для воссоздания исходных данных.
Использование OpenAI языковая модель CLIP, который может соединять текстовые описания с фотографиями, сначала переводит письменную подсказку в промежуточную форму, которая включает в себя важнейшие свойства, которыми изображение должно обладать, чтобы соответствовать этой подсказке (согласно CLIP).
Во-вторых, DALL-E 2 создает CLIP-совместимый изображение с использованием диффузионной модели, то есть нейронная сеть.
На искаженных фотографиях со случайными пикселями изучаются модели диффузии. Они узнают, как восстановить первоначальный вид фотографий. Диффузионные модели могут создавать высококачественные синтетические изображения, особенно при использовании в сочетании с направляющим подходом, который ставит точность выше разнообразия.
Как следствие, диффузионная модель берет случайные пиксели и использует CLIP для преобразования их в новое изображение, соответствующее подсказке слова. Благодаря концепции рассеивания DALL-E 2 может создавать изображения с более высоким разрешением быстрее, чем DALL-E.
Вариант использования DALL.E 2
За последние двадцать лет, компьютерное зрение Технология прошла путь от простого понятия до крупного прорыва. Несмотря на эти достижения, модели распознавания изображений и объектов по-прежнему сталкиваются с серьезными препятствиями в повседневной жизни. Отсутствие наборов данных — один из самых существенных недостатков распознавания изображений и компьютерного зрения. Из-за нехватки данных с обеих сторон обучение моделей распознавания изображений для получения 100-процентно точных результатов практически невозможно.
К счастью, новая модель машинного обучения OpenAI может восполнить пробел в технологиях. DALLE 2 способен генерировать удивительные изображения на основе текстовых описаний. Это производство поддельных изображений может предоставлять данные для моделей распознавания изображений в соответствии с их требованиями. Отсутствие данных является существенным камнем преткновения для идентификации объектов и изображений.
В цифровую эпоху наборы данных распространены повсеместно, но мы все еще ищем короткие пути для подпитки модели ИИ, чтобы она могла обеспечить хорошие результаты. Однако обучить модель распознавания изображений непросто. Это требует большого количества наборов данных с небольшими различиями, которые мы, возможно, не смогли бы просто извлечь.
Итак, каков ответ: ответ DALLE 2. Генератор изображений OpenAI с его способностью создавать изображения из текстов и изменять существующие может помочь преодолеть разрыв. Это поможет в создании дополнительных обучающих данных, а также уменьшит количество необходимых меток, выполняемых человеком. Несмотря на значительное преимущество, вы должны знать о мошеннических изображениях и изображениях, исключающих включение. Это может привести к тому, что методы обнаружения изображений будут давать необъективные результаты.
ограничения
Согласно OpenAI, DALL.E 2 вполне может оказать вредное влияние, если попадет не в те руки. В современном мире дипфейков эту модель можно легко использовать для распространения ложной информации или расистских изображений, поэтому OpenAI разрешает разработчикам использовать DALL.2 только по приглашению. Модель должна соблюдать строгие ограничения содержания для всех предложений, которые она получает.
Чтобы исключить вероятность того, что DALL.E 2 создаст какие-либо враждебные или насильственные изображения, набор данных был создан без какого-либо смертоносного оружия. Хотя OpenAI заявил, что планирует преобразовать его в API в будущем, в случае с DALL.E 2 он готов действовать с осторожностью.
Заключение
DALL-E 2 — еще одно интересное открытие исследования OpenAI, которое открывает двери для новых приложений.
Одним из примеров является создание массивных наборов данных для удовлетворения одного из основных узких мест компьютерного зрения — данных. Хотя экономическая целесообразность многих приложений на основе DALL-E будет определяться ценой и политиками, которые OpenAI устанавливает для своих пользователей API, все они, несомненно, будут способствовать развитию производства изображений.
Оставьте комментарий