[论文解读] DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction
DISN 通过结合全局与局部图像特征,从单幅图像预测连续的符号距离场,实现高质量、细节丰富的 3D 网格重建且不受固定拓扑限制。它在单视图方法中处于行业领先地位,并支持多视图扩展。
Reconstructing 3D shapes from single-view images has been a long-standing research problem. In this paper, we present DISN, a Deep Implicit Surface Network which can generate a high-quality detail-rich 3D mesh from an 2D image by predicting the underlying signed distance fields. In addition to utilizing global image features, DISN predicts the projected location for each 3D point on the 2D image, and extracts local features from the image feature maps. Combining global and local features significantly improves the accuracy of the signed distance field prediction, especially for the detail-rich areas. To the best of our knowledge, DISN is the first method that constantly captures details such as holes and thin structures present in 3D shapes from single-view images. DISN achieves the state-of-the-art single-view reconstruction performance on a variety of shape categories reconstructed from both synthetic and real images. Code is available at https://github.com/xharlie/DISN The supplementary can be found at https://xharlie.github.io/images/neurips_2019_supp.pdf
研究动机与目标
- 旨在通过隐式曲面改进单视图三维重建,以捕捉细小细节和孔洞。
- 提出一个深度隐式曲面网络(DISN),从二维图像预测 SDF 值。
- 通过将三维查询点投影到图像中以收集基于补丁的特征,整合一个局部特征提取模块。
- 在 ShapeNet Core 的多个类别上展示最先进的准确性,并分析相机位姿和局部特征的影响。
- 展示对多视图重建及相关应用的扩展。
提出的方法
- 将三维形状表示为符号距离函数(SDF),并在给定输入图像的情况下预测三维点的 SDF 值。
- 使用卷积神经网络编码器提取全局图像特征,并估计一个六维相机姿态表示,以将三维点投影到图像平面以进行局部特征提取。
- 用从投影后的图像位置的特征图中提取的局部特征流来增强 SDF 预测,并与全局特征和点特征拼接。
- 使用连续 SDF 值的回归损失进行训练,包括对靠近等值面的区域赋予加权损失以提高细节保真度。
- 通过对密集三维网格进行采样、预测 SDF 值,并通过 Marching Cubes 提取网格来重建表面。
- 通过在解码前对来自多个视图的特征进行聚合(通过最大池化)来扩展到多视图重建。
实验结果
研究问题
- RQ1深度网络是否能够仅通过单幅图像就为任意三维点预测连续的 SDF 值,而不受固定拓扑约束?
- RQ2结合局部图像特征(通过投影补丁)是否能相对于仅使用全局特征来提高对孔洞和细薄结构等细节的重建?
- RQ3估计的相机姿态如何影响 SDF 预测和单视图重建的最终网格质量?
- RQ4该方法能否扩展到多视图输入以进一步提高细节和准确性?
- RQ5在合成数据和真实数据上,DISN 在标准 3D 重建指标方面与最新方法相比如何?
主要发现
- DISN 在 ShapeNet Core 各类别的单视图 3D 重建上达到最先进的性能,在 EMD 和 IoU 指标上超越基线。
- 将局部特征提取模块(通过投影图像补丁)引入,与仅使用全局特征相比,在恢复细粒度细节方面有显著提升。
- 对相机姿态使用的 6D 旋转表示以及所提出的损失有助于实现稳定训练和准确姿态估计,从而提升重建质量。
- 真实相机位姿能带来更好的定量结果,但估计的位姿仍能在小再投影误差下产生具有竞争力的定性重建。
- DISN 对相机姿态估计误差具有鲁棒性,其基于 SDF 的框架比固定体积的 3D CNN 方法产生更平滑的表面。
- 该方法能推广到真实图像和在线产品图像,并通过多视图特征聚合实现多视图重建的进一步改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。