DreamFusion – 텍스트에서 3D 모델 생성

차례[숨다][보여 주다]

드림퓨전이란?
그것은 어떻게 작동합니까?+-
제한 사항
결론

지난 몇 년 동안 텍스트-이미지 AI 모델이 얼마나 강력해졌는지 들어보셨을 것입니다. 하지만 동일한 기술이 2D에서 3D로 도약하는 데 도움이 될 수 있다는 사실을 알고 계셨습니까?

AI로 생성된 3D 모델은 오늘날의 디지털 환경에서 광범위한 사용 사례를 가지고 있습니다. 비디오 게임 영화는 숙련된 3D 아티스트와 Blender와 같은 모델링 소프트웨어를 사용하여 컴퓨터 생성 장면을 채울 3D 자산을 만듭니다.

그러나 오늘날 3D 아티스트가 DALL-E 및 중도?

이 기사에서는 기존의 데이터를 사용하여 효과적인 텍스트-3D 모델을 생성하려는 새로운 알고리즘을 탐색합니다. 확산 모델.

드림퓨전?

3D 자산을 직접 생성하는 확산 모델을 생성할 때의 한 가지 주요 문제는 사용 가능한 3D 데이터가 많지 않다는 것입니다. 2D 확산 모델은 인터넷에서 찾을 수 있는 방대한 이미지 데이터 세트로 인해 매우 강력해졌습니다. 3D 자산에 대해서도 마찬가지입니다.

일부 3D 생성 기술은 이러한 풍부한 2D 데이터를 활용하여 이러한 데이터 부족을 해결합니다.

Dreamfusion은 제공된 텍스트 설명에서 일관된 3D 모델을 생성합니다.

드림퓨전 제공된 텍스트 설명을 기반으로 3D 모델을 생성할 수 있는 생성 모델입니다. DreamFusion 모델은 사전 훈련된 텍스트-이미지 확산 모델을 사용하여 텍스트 프롬프트에서 사실적인 XNUMX차원 모델을 생성합니다.

3D 교육 데이터가 없음에도 불구하고 이 접근 방식은 충실도가 높은 모양과 깊이를 가진 일관된 3D 자산을 생성했습니다.

그것은 어떻게 작동합니까?

DreamFusion 알고리즘은 2D 확산 모델과 신경망 2D 이미지를 응집력 있는 3D 장면으로 변환할 수 있습니다.

Google의 Imagen 텍스트 투 이미지 모델

알고리즘의 첫 번째 부분은 확산 모델입니다. 이 모델은 텍스트를 이미지로 변환하는 역할을 합니다.

영상 특정 개체의 이미지 변화에 대한 대규모 샘플을 생성할 수 있는 확산 모델입니다. 이 경우 이미지 변형은 제공된 개체의 가능한 모든 각도를 포함해야 합니다. 예를 들어 말의 3D 모델을 생성하려면 가능한 모든 각도에서 말의 2D 이미지를 원할 것입니다. 목표는 Imagen을 사용하여 우리 알고리즘의 다음 모델에 대해 가능한 한 많은 정보(색상, 반사, 밀도)를 제공하는 것입니다.

Dreamfusion은 Google의 Imagen을 사용하여 텍스트에서 이미지를 생성합니다.

NeRF로 3D 모델 생성

다음으로 Dreamfusion은 뉴럴 래디언스 필드 또는 NeRF를 사용하여 생성된 이미지 세트에서 실제로 3D 모델을 생성합니다. NeRF는 3D 이미지의 데이터 세트가 주어지면 복잡한 2D 장면을 생성할 수 있습니다.

NeRF가 어떻게 작동하는지 이해해 봅시다.

이 모델은 제공된 2D 이미지 데이터 세트에서 최적화된 연속 체적 장면 기능을 만드는 것을 목표로 합니다.

모델이 함수를 생성하는 경우 입력과 출력은 무엇입니까?

장면 기능은 3D 위치와 2D 보기 방향을 입력으로 받습니다. 그런 다음 함수는 색상(RGB 형식)과 특정 볼륨 밀도를 출력합니다.

특정 관점에서 2D 이미지를 생성하기 위해 모델은 일련의 3D 포인트를 생성하고 장면 기능을 통해 해당 포인트를 실행하여 일련의 색상 및 볼륨 밀도 값을 반환합니다. 그러면 볼륨 렌더링 기술이 해당 값을 2D 이미지 출력으로 변환합니다.

Dreamfusion은 NeRF 모델을 사용하여 장면의 새로운 뷰를 생성하는 기능을 생성합니다.

NeRF 및 2D 확산 모델 함께 사용

NeRF가 어떻게 작동하는지 알았으니 이제 이 모델이 생성된 이미지에서 정확한 3D 모델을 생성하는 방법을 살펴보겠습니다.

제공된 각 텍스트 프롬프트에 대해 DreamFusion은 임의로 초기화된 NeRF를 처음부터 훈련합니다. 각 반복은 일련의 구형 좌표에서 임의의 카메라 위치를 선택합니다. 유리 구 안에 들어 있는 모델을 생각해 보십시오. 3D 모델의 새 이미지를 생성할 때마다 구의 임의 지점을 출력의 유리한 지점으로 선택합니다. DreamFusion은 임의의 조명 위치도 선택합니다. l 렌더링에 사용합니다.

카메라와 조명 위치가 있으면 NeRF 모델이 렌더링됩니다. DreamFusion은 또한 컬러 렌더, 텍스처리스 렌더 및 음영 없는 알베도 렌더링 중에서 임의로 선택합니다.

Dreamfusion은 다양한 각도에서 이미지를 출력합니다.

앞에서 우리는 text-to-image 모델(Imagen)이 대표 샘플을 만들기에 충분한 이미지를 생성하기를 원한다고 언급했습니다.

Dreamfusion은 이것을 어떻게 달성합니까?

Dreamfusion은 의도한 각도를 얻기 위해 입력 프롬프트를 약간만 수정합니다. 예를 들어 프롬프트에 "overhead view"를 추가하여 높은 앙각을 얻을 수 있습니다. "정면", "측면", "후면"과 같은 문구를 추가하여 다른 각도를 생성할 수 있습니다.

임의의 카메라 위치에서 장면이 반복적으로 렌더링됩니다. 그런 다음 이러한 렌더링은 점수 증류 손실 함수를 통과합니다. 간단한 경사 하강 방식은 천천히 개선할 것입니다. 3D 모델 텍스트에 설명된 장면과 일치할 때까지.

NeRF를 사용하여 3D 모델을 렌더링한 후에는 다음을 사용할 수 있습니다. 마칭 큐브 알고리즘 모델의 3D 메쉬를 출력합니다. 그런 다음 이 메시를 인기 있는 3D 렌더러 또는 모델링 소프트웨어로 가져올 수 있습니다.

제한 사항

DreamFusion의 출력은 기존의 텍스트-이미지 확산 모델을 새로운 방식으로 사용하기 때문에 충분히 인상적이지만 연구원들은 몇 가지 제한 사항을 지적했습니다.

SDS 손실 함수는 과포화 및 과도 평활화 결과를 생성하는 것으로 관찰되었습니다. 출력에서 발견되는 부자연스러운 색상과 정밀한 디테일의 부족에서 이를 관찰할 수 있습니다.

DreamFusion 알고리즘은 64 x 64 픽셀인 Imagen 모델 출력의 해상도에 의해서도 제한됩니다. 이로 인해 더 미세한 세부 사항이 부족한 합성 모델이 생성됩니다.

마지막으로 연구원들은 3D 데이터에서 2D 모델을 합성하는 데 고유한 문제가 있음을 지적했습니다. 3D 이미지 세트에서 생성할 수 있는 가능한 2D 모델이 많이 있으므로 최적화가 매우 어렵고 모호합니다.

결론

DreamFusion의 3D 렌더링은 텍스트에서 이미지로의 확산 모델이 모든 개체나 장면을 생성할 수 있기 때문에 매우 잘 작동합니다. 신경망이 3D 훈련 데이터 없이 3D 공간의 장면을 이해하는 방법이 인상적입니다. 나는 읽기를 권장합니다 종이 전체 DreamFusion 알고리즘의 기술적 세부 사항에 대해 자세히 알아보십시오.

바라건대 이 기술은 결국 사진처럼 사실적인 3D 모델을 생성하도록 개선될 것입니다. AI 생성 환경을 사용하는 전체 비디오 게임 또는 시뮬레이션을 상상해 보십시오. 비디오 게임 개발자가 몰입형 3D 세계를 만들기 위한 진입 장벽을 낮출 수 있습니다!

텍스트-투-3D 모델이 미래에 어떤 역할을 할 것이라고 생각하십니까?

DreamFusion – 텍스트에서 3D 모델 생성

드림퓨전?