HumanRF: революционный подход к многопросмотровому кодированию человеческого видео

Вы когда-нибудь смотрели фильм, играли в видеоигры или использовали виртуальную реальность и замечали что-нибудь необычное в том, как двигались и выглядели человеческие персонажи?

Создание реалистичных и детализированных компьютерных людей уже давно является целью исследований компьютерной графики и компьютерного зрения.

Ассоциация ЧеловекРФ проект является захватывающим первым шагом к этой цели

HumanRF — это динамическое представление нейронной сцены, в котором используется входной видеосигнал с несколькими представлениями, чтобы запечатлеть вид человека в движении в полный рост. Давайте посмотрим, что это такое и каковы потенциальные преимущества этой технологии.

Человек

Захват человеческой деятельности

Создание фотореалистичных представлений виртуальной среды уже давно является проблемой в компьютерная графика.

Традиционно художники создавали 3D-объекты вручную. Однако недавние исследования были сосредоточены на воссоздании 3D-представлений из реальных данных.

Захват и синтез реалистичных действий человека, в частности, были в центре внимания таких приложений, как кинопроизводство, компьютерные игры и телеприсутствие.

Улучшения динамического поля нейронного излучения

В последние годы был достигнут огромный прогресс в решении этих проблем за счет использования динамических полей нейронного излучения (NeRF). NeRF способен восстанавливать 3D-поля, закодированные в многослойном персептроне (MLP), что позволяет синтезировать новое представление.

В то время как NeRF изначально был сосредоточен на статических сценах, в более поздних работах были рассмотрены динамические сцены с использованием временных условий или полей деформации. Тем не менее, эти методы продолжают бороться с более длинными последовательностями со сложными движениями, особенно когда речь идет о съемке движущихся людей.

База данных ActorsHQ

Чтобы устранить эти недостатки, профессионалы предлагают ActorsHQ, новый высокоточный набор данных одетых людей в движении, оптимизированный для фотореалистичного синтеза нового вида. Набор данных содержит многоракурсные записи со 160 синхронизированных камер, каждая из которых записывает 12-мегапиксельные видеопотоки.

Этот набор данных позволяет создать новое представление сцены, которое расширяет хеш-кодирование Instant-NGP до временной области, включая измерение времени вместе с тензорным пространственно-временным разложением сетки объектов низкого ранга.

Dataset

Представляем HumanRF

HumanRF — это 4D-динамическое представление нейронной сцены, которое захватывает движение всего тела из многоканального видеовхода и позволяет воспроизводить его с ранее невидимых точек зрения. Это метод видеозаписи, который захватывает много данных, занимая при этом очень мало места.

Это достигается путем разбиения пространства и времени на более мелкие части, подобно тому, как набор Lego можно разобрать и собрать заново.

Технология HumanRF может очень хорошо фиксировать движения людей на видео, даже если они выполняют трудные или сложные движения. Создатели этой технологии демонстрируют эффективность HumanRF на недавно представленном наборе данных ActorsHQ, демонстрируя значительное улучшение по сравнению с существующими современными методами.

Безымянный

Итак, как удалось создать HumanRF и какова его внутренняя работа?

Обзор метода HumanRF

Декомпозиция 4D Feature Grid

Декомпозиция сетки признаков 4D является важным компонентом HumanRF. Путем объединения оптимально разделенных 4D-сегментов этот метод моделирует динамическую 3D-сцену. Каждый сегмент имеет собственную обучаемую 4D-сетку признаков, которая кодирует последовательность кадров.

Для более компактного представления пространственно-временных данных четырехмерная сетка объектов определяется как разложение четырех трехмерных и четырех одномерных сеток объектов. Декомпозиция сетки признаков 4D помогает методу создавать высококачественные изображения с высоким уровнем детализации, занимая при этом меньше места.

Адаптивное временное разделение

HumanRF использует неглубокие многослойные персептроны с разреженными хеш-сетками для эффективного рендеринга произвольно длинных данных с несколькими представлениями. Компактная сетка признаков 4D используется для представления оптимально распределенных временных сегментов, составляющих временную область.

Независимо от временного контекста метод обеспечивает превосходную мощность представления за счет использования адаптивного временного разделения, чтобы гарантировать, что общий объем трехмерного пространства, охватываемый каждым сегментом, имеет одинаковый размер. Независимо от продолжительности видео, адаптивное временное разбиение помогает обеспечить согласованное представление.

Наблюдение с потерями только в 2D

Ошибки между визуализированными и входными изображениями RGB и масками переднего плана измеряются HumanRF с использованием контролируемых потерь только для 2D.

Этот метод обеспечивает временную согласованность с использованием общих MLP и 4D-декомпозиции, а результаты очень похожи на результаты сегментов наилучшего размера.

Модель 1

Этот метод более эффективен и проще в обучении, чем методы, использующие 3D-потери, поскольку он использует только 2D-потери.

Этот метод дает результаты, которые превосходят результаты других экспериментально проверенных методов, что делает его многообещающей стратегией для создания изображений актеров в движении высокого качества.

Возможные области использования

Улучшение видеоигр и виртуальной реальности

Создание виртуального персонажа в реальном времени для видеоигры и VR-приложения возможны с HumanRF. Движение актера-человека может быть записано с разных ракурсов, а затем данные могут быть обработаны с помощью HumanRF.

Это позволяет разработчики игр для создания персонажей, которые могут двигаться и взаимодействовать с окружающей средой более реалистично, давая игрокам более увлекательный опыт.

Захват движения в кинопроизводстве

Создавая четкие изображения движения актеров, HumanRF может улучшить захват движения в процессе создания фильма.

Кинематографисты могут создавать реалистичные и динамичные представления, которые можно редактировать под разными углами, используя несколько камер для записи выступления актера и HumanRF для создания 4D-представления.

Это снижает потребность в повторных съемках и снижает производственные затраты.

Расширение возможностей виртуальных совещаний и телеконференций

Создавая 3D-модели удаленных участников в режиме реального времени, HumanRF позволяет создавать иммерсивные и реалистичные виртуальные встречи.

Участники виртуальных совещаний могут получить более интересный и интерактивный опыт, фиксируя движение удаленного участника под разными углами и обрабатывая данные с помощью HumanRF.

Кроме того, HumanRF можно использовать для создания высококачественных изображений удаленных участников во время видео-конференция, что приводит к лучшему сотрудничеству и общению.

Содействие образованию и обучению

HumanRF можно использовать для создания динамичных, реалистичных симуляций в учебных и образовательных средах.

Учебные симуляции, которые позволяют обучаемым практиковаться и учиться в более реалистичной и интересной среде, могут быть созданы путем записи движений инструкторов или актеров, выполняющих определенные задачи, и обработки данных с помощью HumanRF.

Например, HumanRF можно использовать для разработки симуляций вождения, полета или медицинского обучения.

Повышение безопасности и наблюдения

В приложениях для наблюдения и безопасности HumanRF можно использовать для создания динамических и реалистичных 3D-моделей людей или групп. Сотрудники службы безопасности могут получить более точное представление о движении и поведении человека, фиксируя движение людей с разных точек зрения и обрабатывая данные с помощью HumanRF.

Это улучшает идентификацию и отслеживание потенциальных угроз. Сотрудники службы безопасности могут практиковаться и готовиться к различным ситуациям, используя HumanRF для моделирования сценариев чрезвычайных ситуаций.

Подведение итогов, что нас ждет в будущем?

HumanRF — это эффективный подход для создания высококачественных уникальных изображений движущегося актера. Он продемонстрировал многообещающие результаты в различных приложениях, включая захват движения, виртуальную реальность и телеприсутствие. Потенциал HumanRF не ограничивается этими приложениями; есть несколько дополнительных возможных приложений для этой технологии.

Ожидается, что она будет улучшаться по мере развития исследований в этом секторе, становясь более эффективной и точной.

Новые алгоритмы и архитектуры почти наверняка приведут к более совершенным способам моделирования и изображения актеров в движении, что может привести к многочисленным интересным достижениям в индустрии кино, игр и коммуникации.

Кроме того, применение модели глубокого обучения вместе с HumanRF является потенциальным направлением для будущих исследований. Это может привести к более эффективному анализу движения человека и технологиям моделирования.

Кроме того, объединение HumanRF с другими технологиями, такими как системы тактильной обратной связи и дополненная реальность, может привести к появлению новых приложений в медицинском обучении, образовании и терапии.