Содержание[Скрывать][Показывать]
Нет ничего нового в том, чтобы иметь поддельные фотографии и видео. С момента широкого использования Интернета люди создавали подделки, предназначенные для того, чтобы одурачить или развлечь, с тех пор, как появились изображения и фильмы.
Однако существует новый тип искусственно созданных подделок, из-за которых нам когда-нибудь будет трудно отличить реальность от вымысла.
Эти подделки отличаются от простых манипуляций с изображениями, созданных с помощью программного обеспечения для редактирования, такого как Photoshop, или искусно обработанных фильмов прошлого.
Дипфейки — наиболее известный пример «синтетических медиа» — изображений, звуков и видео, которые выглядят как созданные с использованием традиционных методов, но на самом деле были созданы с использованием сложного программного обеспечения.
Дипфейки существуют уже некоторое время, и хотя их самым популярным применением было размещение голов известных людей на телах актеров в порнографических фильмах, у них есть возможность создавать убедительные кадры того, как кто-то что-то делает и где угодно.
В этом посте мы рассмотрим дипфейки, как они работают, как их можно генерировать самостоятельно и многое другое.
Итак, что такое DeepFake?
Дипфейк — сочетание слов «глубокое обучение» и «фейк» — это часть синтетическая среда в котором сходство другого человека используется для замены сходства человека на уже существующей фотографии или видео.
Дипфейки используют сложные методы машинного обучения и искусственного интеллекта для изменения и создания визуальной и звуковой информации, которая имеет высокий потенциал для обмана.
Методы глубокого обучения, такие как автокодировщики и генеративные состязательные сети, являются основным механизмом производства дипфейков (GAN).
Эти модели используются для анализа эмоций и движений лица человека и синтеза изображений лиц других людей, демонстрирующих сопоставимые выражения и движения.
Использование дипфейков в порнографических видео знаменитостей, фейковых новостях, розыгрышах и финансовых махинациях привлекло значительное внимание. И промышленность, и правительство отреагировали, пытаясь найти их и ограничить их использование.
Модель движения первого порядка
Когда мы пытались разработать глубокие подделки в прошлом, проблема заключалась в том, что нам нужны какие-то дополнительные знания или априорные данные, чтобы эти подходы работали.
Например, маркеры лица необходимы, если мы хотим проследить движение головы. Оценка позы была необходима, если мы хотели отобразить движение всего тела.
Все изменилось на конференции NeurIPS в прошлом году, когда исследовательская группа из Университета Торонто представила свою работу».Модель движения первого порядка для анимации изображений".
Для этого подхода не требуется никаких дополнительных знаний в области анимации. Кроме того, после обучения этой модели ее можно использовать для трансферного обучения и применять к любому элементу, подпадающему под ту же категорию.
Давайте посмотрим на работу этого метода немного дальше. Извлечение и генерация движения составляют первую половину всего процесса. Видео вождения и исходные изображения используются в качестве входных данных.
Чтобы извлечь представление движения первого порядка, которое состоит из разреженных ключевых точек и локальных аффинных преобразований, экстрактор движения использует автоэнкодер для идентификации ключевых точек.
Чтобы создать плотный оптический поток и карту окклюзии с плотной сетью движения, они используются вместе с движущимся видео. Затем генератор визуализирует целевое изображение, используя выходные данные сети с плотным движением и исходное изображение.
По всем направлениям эта работа работает лучше, чем современное состояние. Он также содержит функции, которых просто нет в других моделях. Он работает с несколькими типами изображений, поэтому вы можете применять его к изображениям лица, тела, мультфильмам и т. д., что очень здорово.
Благодаря этому создается много новых возможностей. Еще один новаторский аспект нашей стратегии заключается в том, что теперь она позволяет создавать высококачественные дипфейки, используя всего одно изображение целевого объекта, подобно тому, как мы это делаем с YOLO для объекта признание.
Процесс создания модели Deepfake
Для генерации дипфейков необходимы три процесса: извлечение, обучение и создание. В этом разделе будут рассмотрены основные моменты каждого из этих этапов и то, как они соотносятся с общим процессом.
Добыча
Дипфейки используют глубокие нейронные сети для изменения лиц и нуждаются в большом количестве данных (изображений), чтобы работать правильно и убедительно. Процесс извлечения — это этап, на котором извлекаются все кадры из видеоклипов, лица распознаются, а затем лица выравниваются для максимальной производительности.
Обучение
На этапе обучения, нейронной сети может превратить одно лицо в другое. В зависимости от размера тренировочного набора и тренировочного гаджета обучение может занять несколько часов или даже дней.
Обучение нужно завершить только один раз, как и большинство других обучений нейронных сетей. После обучения модель сможет изменить лицо человека А на человека Б.
Создание
После обучения модели может быть создан дипфейк. Кадры берутся из видео, а затем выравниваются по всем лицам. Затем обученная нейронная сеть используется для преобразования каждого кадра.
Преобразованное лицо должно быть объединено с исходным кадром в качестве последнего шага.
Построение модели обнаружения дипфейков
Установка и клонирование репозитория GitHub
Возможность бесплатного использования графических процессоров Google во время работы в Colab выгодна для глубокое обучение. Дополнительным преимуществом является возможность подключения Google Диска к облачной виртуальной машине (ВМ).
Благодаря легкому доступу ко всем своим вещам пользователь включен. В этом разделе находится программа, необходимая для подключения Google Диска к виртуальной машине в облаке.
Импорт модулей
Теперь мы импортируем все необходимые модули.
Выполнение модели
Мы будем использовать пример, в котором фото Путина (исходное изображение) сочетается с видео Обамы. В результате получилось видео, на котором Путин говорит и жестикулирует с тем же выражением лица, что и Обама за рулем.
Перед отображением результата модели будет загружен носитель и объявлены функции. Затем будут загружены контрольные точки и построена модель. После создания дипфейка будут отображаться два разных стиля анимации.
Путин воодушевлен движениями Обамы, использующими относительное смещение ключевой точки. То, как эмоции на лице и язык тела Обамы красиво и ясно изображаются для Путина во время его видео, просто поразительно.
Есть несколько микроскопических ошибок, особенно когда Обама поднимает брови и моргает. Эти выражения не совсем точно воспроизведены в кадрах Путина.
Без дипфейкового фона фильм о Путине выглядел бы достаточно правдоподобным и аутентичным, если бы его посмотрели по телевизору или социальные сети.
Создание модели
Теперь мы будем использовать предварительно обученные контрольные точки для создания полной модели.
Обнаружение дипфейка
Относительное смещение ключевой точки используется для анимации элементов в ячейке ниже. В следующей ячейке вместо этого используются абсолютные координаты, но таким образом все пропорции предметов будут взяты из видео вождения.
Улучшение вывода с использованием абсолютных координат
Таким образом вы сможете разработать обнаружение дипфейков.
Каковы риски технологии Deepfake?
Видео Deepfake теперь интересно и интересно смотреть из-за их новизны. Однако существует риск того, что эта, казалось бы, забавная технология может выйти из-под контроля.
Безусловно, будет сложно отличить поддельные видео от настоящих, поскольку DeepFake технология продолжает продвигаться. В частности, для выдающихся личностей и знаменитостей это может иметь серьезные последствия. Умышленно злонамеренные дипфейки могут полностью повредить карьере и жизни.
Их может использовать кто-то со злым умыслом, чтобы выдать себя за других и воспользоваться своими друзьями, родственниками и коллегами. Они также способны спровоцировать всемирные споры и даже войны, используя фальшивые фильмы иностранных лидеров.
Заключение
Таким образом, мы находимся в странном периоде и необычной среде. Как никогда просто создавать ложные новости и фильмы и распространять их. Понять, что правда, а что нет, становится все труднее.
Сегодня, оказывается, мы больше не можем полагаться на собственные чувства.
Несмотря на то, что были разработаны ложные видеодетекторы, это лишь вопрос времени, когда информационный пробел станет настолько узким, что даже самые лучшие фальшивые детекторы не смогут определить, настоящее видео или нет.
Оставьте комментарий