QUICK REVIEW

[论文解读] OctNetFusion: Learning Depth Fusion from Data

Gernot Riegler, Ali Osman Ulusoy|arXiv (Cornell University)|Apr 4, 2017

Advanced Vision and Imaging参考文献 50被引用 27

一句话总结

OctNetFusion 提出了一种深度 3D 卷积神经网络，通过从噪声输入中预测截断符号距离场（TSDF），学习将多个深度图融合为高精度、完整的 3D 重建结果。与传统的体素融合方法不同，它利用大规模 3D 模型库和自适应八叉树架构，有效降低噪声、抑制异常值，并重建被遮挡区域，在精度和细节保留方面优于传统的 TSDF 和 TV-L1 融合方法。

ABSTRACT

In this paper, we present a learning based approach to depth fusion, i.e., dense 3D reconstruction from multiple depth images. The most common approach to depth fusion is based on averaging truncated signed distance functions, which was originally proposed by Curless and Levoy in 1996. While this method is simple and provides great results, it is not able to reconstruct (partially) occluded surfaces and requires a large number frames to filter out sensor noise and outliers. Motivated by the availability of large 3D model repositories and recent advances in deep learning, we present a novel 3D CNN architecture that learns to predict an implicit surface representation from the input depth maps. Our learning based method significantly outperforms the traditional volumetric fusion approach in terms of noise reduction and outlier suppression. By learning the structure of real world 3D objects and scenes, our approach is further able to reconstruct occluded regions and to fill in gaps in the reconstruction. We demonstrate that our learning based approach outperforms both vanilla TSDF fusion as well as TV-L1 fusion on the task of volumetric fusion. Further, we demonstrate state-of-the-art 3D shape completion results.

研究动机与目标

解决传统深度融合方法的局限性，例如对噪声处理能力差以及无法重建被遮挡区域。
实现基于大规模 3D 模型库的端到端多视角深度图像 3D 重建学习。
开发一种 3D 卷积神经网络架构，联合学习 3D 重建及其最优空间划分（八叉树结构），以提升效率与精度。
在多视角深度融合与单视角 3D 形状补全任务中均达到最先进性能。
通过允许动态、学习驱动的八叉树构建，克服先前 OctNet 模型中固定八叉树结构的限制，实现输出几何的自适应生成。

提出的方法

该方法采用一种新颖的 3D 卷积神经网络架构 OctNetFusion，以多张深度图为输入，预测在学习得到的 3D 空间划分中的截断符号距离场（TSDF）。
其采用自适应八叉树表示，该结构并非由输入固定，而是在训练过程中学习生成，以优化输出几何形态。
网络在大规模 3D 模型库上进行训练，以学习真实世界物体的结构先验，从而实现对新类别物体的泛化能力。
模型预测实值 TSDF，可使用标准算法（如 Marching Cubes）进行网格化处理。
通过八叉树结构利用稀疏性，支持高达 256³ 的高分辨率重建，显著降低内存消耗。
该方法采用端到端训练，使用重建损失最小化预测 TSDF 与真实 TSDF 之间的差异。

实验结果

研究问题

RQ1深度学习模型能否在抑制噪声和异常值的同时，将多个噪声较大的深度图融合为高质量的 3D 重建？
RQ23D 卷积神经网络能否从多个深度视图中学习重建被遮挡或缺失的几何结构，从而超越传统融合方法？
RQ3基于自适应八叉树的网络架构是否在 3D 融合任务中优于固定八叉树方法？
RQ4所提出的方法能否泛化到训练过程中未见过的新物体类别？
RQ5与传统方法（如原始 TSDF 和 TV-L1 正则化）相比，基于学习的融合方法性能如何？

主要发现

在 ModelNet 数据集上，OctNetFusion 在 256³ 分辨率下使用 20 张视角时，平均角度偏差（MAD）降低至 4.806 mm，显著优于原始 TSDF（31.707 mm）和 TV-L1（5.372 mm）。
在 Kinect Object Scans 数据集上，OctNetFusion 在 256³ 分辨率下使用 20 张视角时，MAD 达到 4.110 mm，显著优于两种基线方法。
该方法在抑制噪声和异常值方面比原始 TSDF 更为有效，且避免了 TV-L1 正则化带来的收缩偏差。
在单视角 3D 形状补全任务中，OctNetFusion 在 Tabletop 数据集上取得 0.650 的 IoU，优于 Voxlets（0.585）和 Zheng 等人（0.528）。
在 K80 GPU 上，OctNetFusion 在 256³ 分辨率下的推理时间为 10.1 秒，显著快于 TV-L1（24.66 秒），且与原始 TSDF 方法相当。
定性结果表明，OctNetFusion 能够重建细小细节并填充大面积孔洞，而传统方法则往往导致模糊或遗漏这些特征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。