[论文解读] Text-To-4D Dynamic Scene Generation
MAV3D 通过以文本为输入、优化一个4D神经辐射场,并使用文本到视频的扩散先验,来生成动态的3D场景,而无需3D/4D训练数据。它实现了从任意视角可渲染、并可与3D环境集成的视角和时间一致的输出。
We present MAV3D (Make-A-Video3D), a method for generating three-dimensional dynamic scenes from text descriptions. Our approach uses a 4D dynamic Neural Radiance Field (NeRF), which is optimized for scene appearance, density, and motion consistency by querying a Text-to-Video (T2V) diffusion-based model. The dynamic video output generated from the provided text can be viewed from any camera location and angle, and can be composited into any 3D environment. MAV3D does not require any 3D or 4D data and the T2V model is trained only on Text-Image pairs and unlabeled videos. We demonstrate the effectiveness of our approach using comprehensive quantitative and qualitative experiments and show an improvement over previously established internal baselines. To the best of our knowledge, our method is the first to generate 3D dynamic scenes given a text description.
研究动机与目标
- 激发直接从自然语言提示创建动态3D场景的动机。
- 开发一个可通过文本到视频先验进行优化的4D场景表示。
- 提出一个在没有成对的(文本,4D)数据的训练方案。
- 纳入多阶段的静态到动态图优化与超分辨率细化以提升保真度。
提出的方法
- 用 HexPlane 在空间和时间上具有六个特征平面的动态4D场景表示,并扩展为多分辨率网格。
- 通过预训练的文本到视频扩散模型,使用 Score Distillation Sampling (SDS-T) 来更新场景参数,监督4D场景。
- 采用两阶段的静态到动态图优化:先用 T2I 先验拟合静态3D场景,再用 T2V 先验扩展到4D。
- 引入时序感知正则化(运动正则化、动态相机、高斯退火、TV损失),以稳定和提升运动的真实感。
- 使用预训练的视频超分辨率模块进行最终的超分辨率微调(SRFT),以产生更高分辨率的渲染。
实验结果
研究问题
- RQ1是否可以使用文本描述来生成一个可从任意角度观看的动态3D场景(4D)?
- RQ2如何在没有成对(文本,4D)数据的情况下,利用基于扩散的文本到视频先验来监督4D NeRF 表示?
- RQ3静态到动态图训练阶段和运动正则化对生成的4D场景的质量与真实感有何影响?
- RQ4该方法是否可扩展到更高分辨率,并能产生时间上连贯的高保真运动?
主要发现
- MAV3D 超越了将2D视频帧转换为3D表示的朴素基线,在 R-Precision 上表现更好,且在视频质量、提示对齐和运动真实感方面被人类评审偏好。
- 使用 SRFT 的静态到动态图训练以及时序感知正则化,比端到端的 SDS 在动态 NeRF 上能产生更真实的运动和更好地与提示对齐。
- 动态相机运动和FPS采样有助于提升运动的真实感以及跨视角的鲁棒性。
- 该方法使得从任意视点渲染动态场景成为可能,且可以扩展为网格转换或 Image-to-4D 任务。
- 消融实验表明静态预训练阶段对于收敛性和质量很重要;移除 SRFT 或预训练会降低性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。