QUICK REVIEW

[论文解读] DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction

Qiangeng Xu, Weiyue Wang|arXiv (Cornell University)|May 25, 2019

Advanced Vision and Imaging被引用 213

一句话总结

DISN 通过将全局图像特征与投影的局部图像特征相结合，从单幅图像预测连续的有符号距离场（SDF），从而在单视图下实现高质量、细节丰富的三维重建，以及孔洞/薄结构。

ABSTRACT

Reconstructing 3D shapes from single-view images has been a long-standing research problem. In this paper, we present DISN, a Deep Implicit Surface Network which can generate a high-quality detail-rich 3D mesh from an 2D image by predicting the underlying signed distance fields. In addition to utilizing global image features, DISN predicts the projected location for each 3D point on the 2D image, and extracts local features from the image feature maps. Combining global and local features significantly improves the accuracy of the signed distance field prediction, especially for the detail-rich areas. To the best of our knowledge, DISN is the first method that constantly captures details such as holes and thin structures present in 3D shapes from single-view images. DISN achieves the state-of-the-art single-view reconstruction performance on a variety of shape categories reconstructed from both synthetic and real images. Code is available at https://github.com/xharlie/DISN The supplementary can be found at https://xharlie.github.io/images/neurips_2019_supp.pdf

研究动机与目标

推动高质量的单视图三维重建，保持孔洞和薄结构等细微细节。
从单幅图像学习并发展一种隐式三维表面表示（SDF）。
引入一个局部特征提取模块，使用投影后的图像补丁以增强细节恢复。
估计相机姿态，以实现将3D点准确投影到图像上以获得局部特征。
在 ShapeNet Core 上展示最先进的性能，并扩展到多视图重建及相关任务。

提出的方法

将3D形状表示为 Signed Distance Functions (SDF)，并在给定输入图像的情况下为3D查询点预测SDF值。
使用CNN编码器提取全局图像特征，并以6D旋转形式估计相机姿态，以将3D点投影到成像平面。
使用估计的相机参数将每个3D查询点投影到图像中，并从投影位置处的多尺度特征图中提取局部特征。
通过解码器将局部、全局和点特征相结合来解码点特征，以预测SDF值；最终的SDF等于局部和全局预测的和。
使用对SDF值的加权L1损失进行训练，强调靠近等值面的点以恢复表面细节（参数 m1、m2、delta）。
通过对密集3D网格进行查询来重建表面，然后对预测的SDF应用 Marching Cubes 以获得网格。

实验结果

研究问题

RQ1如何从单幅图像学习隐式曲面表示（SDF）以重建高细节的3D形状？
RQ2在单视图3D重建中，除了全局特征外，结合投影的局部图像特征是否能改善孔洞和薄结构的恢复？
RQ3相机姿态估计的精度对基于局部特征的SDF预测和最终几何形状有何影响？
RQ4该方法能否推广到真实图像并支持多视图重建或形状插值？

主要发现

DISN 在 ShapeNet Core 类别的单视图三维重建上取得了最先进的性能（在定性和定量分析中）。
通过投影补丁引入局部图像特征显著改善细粒度细节，如孔洞和薄结构，相较于仅使用全局特征。
该模型预测连续的SDF值，使表面更细致平滑，相较于体素/体积方法，并且在恢复细节方面优于可比的隐式方法。
采用6D旋转表示的相机姿态估计提供具有竞争力的重投影精度，定性结果显示对姿态误差具有鲁棒性。
DISN 支持多视图重建和形状插值的扩展，显示在多视图可用时对细节捕捉的提升，并且可以在在线产品图像上进行测试，表明域迁移能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。