QUICK REVIEW

[论文解读] Text2Tex: Text-driven Texture Synthesis via Diffusion Models

Dave Zhenyu Chen, Yawar Siddiqui|arXiv (Cornell University)|Mar 20, 2023

Computer Graphics and Visualization Techniques被引用 13

一句话总结

Text2Tex 通过使用深度感知扩散模型，逐步对纹理进行修复以为3D网格纹理着色，并由动态生成掩码和自动视点选择来引导，以确保各视图之间的一致性。

ABSTRACT

We present Text2Tex, a novel method for generating high-quality textures for 3D meshes from the given text prompts. Our method incorporates inpainting into a pre-trained depth-aware image diffusion model to progressively synthesize high resolution partial textures from multiple viewpoints. To avoid accumulating inconsistent and stretched artifacts across views, we dynamically segment the rendered view into a generation mask, which represents the generation status of each visible texel. This partitioned view representation guides the depth-aware inpainting model to generate and update partial textures for the corresponding regions. Furthermore, we propose an automatic view sequence generation scheme to determine the next best view for updating the partial texture. Extensive experiments demonstrate that our method significantly outperforms the existing text-driven approaches and GAN-based methods.

研究动机与目标

激励基于文本引导的自动化高质量纹理生成，以用于3D网格，降低手工纹理设计工作量。
开发一个先生成再细化的流水线，逐步为多个视角添加纹理，同时确保跨视角的一致性。
通过将视角动态划分为生成/更新/保留/忽略区域来引导扩散修复，从而解决视角引起的伪影。
引入一个自动视点选择策略，以确定纹理细化的下一个最佳视点。
展示在文本驱动和基于GAN的基线方法中，纹理真实感和一致性方面的显著优势。

提出的方法

使用预训练的深度条件扩散模型对每个渲染视图的纹理进行修复。
引入一个将视图分割为新的/更新/保留/忽略区域的生成掩码，以引导扩散强度和区域特定的修复。
通过UV映射和深度到图像条件将二维生成视图投回纹理空间。
基于表面法线的动态视图划分策略，以减少曲面上拉伸伪影。
提出一个自动视点序列，通过最大化可更新区域来选择后续要进行细化的视图。
在 Objaverse 和 ShapeNet 汽车数据集上，使用 FID、KID 以及用户研究，对比最先进的文本驱动方法和类别特定的 GAN，评估 Text2Tex。

实验结果

研究问题

RQ1基于深度感知扩散的修复是否能在3D网格上产生忠于文本提示的高保真纹理？
RQ2动态的生成/更新/保留/忽略视图分割是否能提升跨视图的纹理一致性？
RQ3自动视点选择策略是否能在无需人工视点设计的情况下有效细化纹理并减少缝隙？
RQ4在客观指标和用户偏好方面，Text2Tex 与现有文本驱动和基于GAN的纹理合成方法相比如何？

主要发现

Text2Tex 在纹理真实感方面显著优于基线，在 Objaverse 上实现了 FID 和 KID 的降低。(Table 1: Text2Tex FID 35.68, KID 7.74)
在 ShapeNet 汽车数据集上，Text2Tex 超越基于 GAN 的方法，达到 FID 46.91 和 KID 4.35（Table 2）。
用户偏好研究显示 Text2Tex 分别优于 CLIPMesh 和 Text2Mesh（83.92% 和 76.47%），也优于 Latent-Paint（64.18%）（Table 3）。
消融研究证实，深度感知修复和更新机制可减少伪影并改进 FID/KID（Table 4）。
更多的细化视点进一步提质（Table 5：20 视图时 FID 35.68；KID 7.74）。
Text2Tex 在大规模三维对象数据集上，在客观指标和人类判断方面均优于文本驱动和基于 GAN 的基线方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。