[论文解读] TripoSR: Fast 3D Object Reconstruction from a Single Image
TripoSR 是一个快速前馈 Transformer 基础的模型,能够在单张图像下用 A100 GPU 在 0.5 秒内重建高质量带纹理的 3D 网格,在开源方法中达到最先进结果。
This technical report introduces TripoSR, a 3D reconstruction model leveraging transformer architecture for fast feed-forward 3D generation, producing 3D mesh from a single image in under 0.5 seconds. Building upon the LRM network architecture, TripoSR integrates substantial improvements in data processing, model design, and training techniques. Evaluations on public datasets show that TripoSR exhibits superior performance, both quantitatively and qualitatively, compared to other open-source alternatives. Released under the MIT license, TripoSR is intended to empower researchers, developers, and creatives with the latest advancements in 3D generative AI.
研究动机与目标
- 促进从单张图像进行快速、准确的 3D 重建,适用于研究和应用部署。
- 提升数据质量和多样性,以改善对野外图像的泛化能力。
- 开发一个内存高效、保真度高的三平面 NeRF 框架,配备鲁棒的训练策略。
- 提供在 MIT 许可证下对模型、代码和演示的开源访问。
提出的方法
- 基于 LRM 架构,配备基于变换器的图像编码器和三平面 NeRF 解码器。
- 使用从 DINOv1 初始化的图像编码器,将 RGB 输入投影为用于 3D 重建的潜在向量。
- 引入一个具有 40 通道的三平面 NeRF,以在质量和内存之间取得平衡。
- 引入掩码损失以减少浮动体并提高重建保真度。
- 使用高分辨率渲染补丁(从 512x512 图像裁剪成 128x128)和重要性采样来强调前景细节进行训练。
- 用学习到的相机参数对三平面投影进行条件化(而非固定相机条件化),以提高对真实世界输入的鲁棒性。
![Figure 2 : We outperform SOTA methods for 3D reconstruction while achieving fast inference time. In the figure, F-Score with threshold 0.1 is averaged over GSO [ 6 ] and OmniObject3D [ 30 ] .](https://ar5iv.labs.arxiv.org/html/2403.02151/assets/figures/teaser-scatter.png)
实验结果
研究问题
- RQ1快速的前馈 Transformer 基模型能否从单张图像生成高保真 3D 网格?
- RQ2在数据策划和渲染方面的改进,以及针对性的架构和训练调整,是否在开源方法中达到最先进的重建效果?
- RQ3与现有基线在标准基准上的形状精度和纹理质量相比,TripoSR 的表现如何?
主要发现
- 在 GSO 与 OmniObject3D 的前馈单图像 3D 重建方法中,达到定量性能的最先进水平(CD 和 F-score)。
- 在 NVIDIA A100 GPU 上大约用 0.5 秒从单张图像推断出 3D 网格。
- 在两个数据集的 Chamfer Distance 和 F-score 指标上,优于基线如 One-2-3-45、ZeroShape、TGS 和 OpenLRM。
- 引入数据和训练方面的改进(来自 Objaverse 的数据策划、多样化渲染、三平面通道优化、掩码损失,以及基于补丁的高分辨率监督),共同提升重建质量与效率。
- 产生带纹理的网格,定性结果显示相较竞争方法在细节对齐和纹理保真度方面更佳。
![Figure 3 : Qualitative results. We compare TripoSR output meshes to other SOTA methods on GSO and OmniObject3D (first four columns are from GSO [ 6 ] , last two are from OmniObject3D [ 30 ] ). Our reconstructed 3D shapes and textures achieve significantly higher quality and better details than previ](https://ar5iv.labs.arxiv.org/html/2403.02151/assets/x2.png)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。