QUICK REVIEW

[논문 리뷰] Text-To-4D Dynamic Scene Generation

Uriel Singer, Shelly Sheynin|arXiv (Cornell University)|2023. 01. 26.

Human Motion and Animation인용 수 23

한 줄 요약

MAV3D는 텍스트를 통해 4D 신경 복사 필드(4D NeRF)를 텍스트-대 비디오 확산 사전으로 최적화하여 3D/4D 학습 데이터 없이도 동적인 3D 씬을 생성합니다. 임의의 시점에서 렌더링 가능한 뷰와 시간 일관성을 가지며, 임의의 시점 뷰에서 렌더링되고 3D 환경에 통합될 수 있습니다.

ABSTRACT

We present MAV3D (Make-A-Video3D), a method for generating three-dimensional dynamic scenes from text descriptions. Our approach uses a 4D dynamic Neural Radiance Field (NeRF), which is optimized for scene appearance, density, and motion consistency by querying a Text-to-Video (T2V) diffusion-based model. The dynamic video output generated from the provided text can be viewed from any camera location and angle, and can be composited into any 3D environment. MAV3D does not require any 3D or 4D data and the T2V model is trained only on Text-Image pairs and unlabeled videos. We demonstrate the effectiveness of our approach using comprehensive quantitative and qualitative experiments and show an improvement over previously established internal baselines. To the best of our knowledge, our method is the first to generate 3D dynamic scenes given a text description.

연구 동기 및 목표

자연어 프롬프트에서 직접 동적인 3D 씬 생성을 촉진한다.
텍스트-투-비디오 프라이어로 최적화할 수 있는 4D 씬 표현을 개발한다.
쌍(pair) 텍스트-4D 데이터가 없는 상태에서 작동하는 학습 레시피를 제안한다.
충실도를 향상시키기 위한 다단계 정적→동적 최적화와 초해상 보정을 포함한다.

제안 방법

동적 4D 씬을 공간과 시간에 걸친 HexPlane의 여섯 개 특징 평면으로 표현하고 다중 해상도 격자로 확장한다.
Score Distillation Sampling (SDS-T)을 이용한 사전 학습된 텍스트-투-비디오 확산 모델로 4D 씬을 감독하여 씬 매개변수를 갱신한다.
먼저 T2I prior로 정적 3D 씬을 맞춘 뒤 T2V prior로 4D로 확장하는 두 단계의 정적→동적 최적화를 채택한다.
모션 규제화, 동적 카메라, 가우시안 어네일링, TV 손실 등 시간 인식 정규화를 도입하여 모션의 안정성과 리얼리즘을 향상시킨다.
사전 학습된 비디오 슈퍼 해상도 모듈을 사용한 최종 SRFT(초해상 미세 조정)를 적용하여 더 높은 해상도 렌더링을 생성한다.

실험 결과

연구 질문

RQ1텍스트 설명을 사용하여 임의의 각도에서 볼 수 있는 동적 3D 씬(4D)을 생성할 수 있는가?
RQ2쌍 텍스트-4D 데이터 없이 확산 기반 텍스트-투-비디오 프라이어를 이용해 4D NeRF 표현을 어떻게 감독할 수 있는가?
RQ3정적→동적 학습 단계와 모션 규제화가 생성된 4D 씬의 품질과 현실성에 미치는 영향은 무엇인가?
RQ4이 방법은 더 높은 해상도로 확장되며 시간적으로 일관되고 고충실도 모션을 생성할 수 있는가?

주요 결과

MAV3D는 2D 비디오 프레임을 3D 표현으로 변환하는 단순 Baseline보다 R-Precision에서 우수하며 비디오 품질, 프롬프트 정렬, 모션 리얼리즘 측면에서 인간 평가자에게 선호된다.
SRFT와 시간 인식 정규화를 포함한 정적→동적 학습은 동적 NeRF에서의 엔드투엔드 SDS보다 더 현실적인 모션과 프롬프트에 대한 더 나은 정렬을 제공한다.
동적 카메라 모션과 FPS 샘플링은 더 현실적인 모션과 다양한 시야 각도에서의 강건성에 기여한다.
이 방법은 임의의 관점에서 동적 씬을 렌더링할 수 있게 하며 메시 변환이나 Image-to-4D 작업으로 확장될 수 있다.
소거 실험은 수렴과 품질에 정적 사전학습 단계가 중요함을 보여주며, SRFT 제거나 사전학습 제거는 성능을 낮춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.