[论文解读] TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting Decomposition
TANGO 在给定的裸露 3D 网格上,在文本提示的引导下,学习 SVBRDF、法线变化和照明,产生无需任务特定数据的照片级风格化。它使用 CLIP 监督和球面高斯可微渲染器对风格参数进行渲染与优化。
Creation of 3D content by stylization is a promising yet challenging problem in computer vision and graphics research. In this work, we focus on stylizing photorealistic appearance renderings of a given surface mesh of arbitrary topology. Motivated by the recent surge of cross-modal supervision of the Contrastive Language-Image Pre-training (CLIP) model, we propose TANGO, which transfers the appearance style of a given 3D shape according to a text prompt in a photorealistic manner. Technically, we propose to disentangle the appearance style as the spatially varying bidirectional reflectance distribution function, the local geometric variation, and the lighting condition, which are jointly optimized, via supervision of the CLIP loss, by a spherical Gaussians based differentiable renderer. As such, TANGO enables photorealistic 3D style transfer by automatically predicting reflectance effects even for bare, low-quality meshes, without training on a task-specific dataset. Extensive experiments show that TANGO outperforms existing methods of text-driven 3D style transfer in terms of photorealistic quality, consistency of 3D geometry, and robustness when stylizing low-quality meshes. Our codes and results are available at our project webpage https://cyw-3d.github.io/tango/.
研究动机与目标
- 促进在文本提示指导下对裸露网格进行照片级3D风格化。
- 将风格解耦为 SVBRDF、局部几何(法线贴图)和照明。
- 在低质量网格上实现鲁棒风格化,无需任务特定数据集。
- 利用 CLIP 损失通过可微分渲染监督外观参数。
提出的方法
- 将风格解耦为空间可变的 BRDF、局部法线变化和照明,通过 CLIP 指导学习。
- 用按表面点参数化的神经网络表示环境照明和 BRDF。
- 使用球面高斯可微渲染器来计算图像形成并实现闭式积分。
- 从随机采样的相机位姿渲染图像,使用 CLIP 编码,并优化参数以最大化文本-图像相似度。
- 结合法线偏移网络和位置编码以捕捉高频细节与几何结构。
实验结果
研究问题
- RQ1文本提示是否可以通过联合学习 SVBRDF、法线变化和照明来引导任意 3D 网格的照片级风格化?
- RQ2在不同质量的网格上,CLIP 监督是否足以使渲染的风格化与文本描述对齐?
- RQ3与现有基于文本的网格风格化方法相比,TANGO 在低质量网格上的表现如何?
- RQ4解耦外观分量对渲染真实感和几何一致性的影响是什么?
主要发现
- 在若干提示上,TANGO 比 Text2Mesh 实现了更高的照片级渲染质量和 3D 一致性。
- 当网格降采样到大约 5,000 个面时,方法仍然鲁棒,保持风格化质量。
- 解耦的 SVBRDF、法线贴图和照明能够实现真实的高光、阴影和纹理变化。
- 法线预测与 SVBRDF/照明预测对高频细节和几何变化有关键贡献。
- 通过改变估计的环境光照贴图和材质参数,可以实现再照明和材质编辑。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。