Skip to main content
QUICK REVIEW

[论文解读] FoldingNet: Interpretable Unsupervised Learning on 3D Point Clouds

Yaoqing Yang, Chen Feng|arXiv (Cornell University)|Dec 19, 2017
3D Shape Modeling and Analysis参考文献 7被引用 55
一句话总结

本文提出FoldingNet,一种用于无监督3D点云学习的端到端深度自编码器,其编码器采用图增强的PointNet结构,解码器采用创新的折叠机制。该折叠解码器通过仅使用全连接解码器7%的参数量,从2D网格重建3D点云,实现了更高的线性SVM分类准确率,并提供了可解释的、保持结构的重建过程。

ABSTRACT

Recent deep networks that directly handle points in a point set, e.g., PointNet, have been state-of-the-art for supervised semantic learning tasks on point clouds such as classification and segmentation. In this work, a novel end-to-end deep auto-encoder is proposed to address unsupervised learning challenges on point clouds. On the encoder side, a graph-based enhancement is enforced to promote local structures on top of PointNet. Then, a novel folding-based approach is proposed in the decoder, which folds a 2D grid onto the underlying 3D object surface of a point cloud. The proposed decoder only uses about 7\% parameters of a decoder with fully-connected neural networks, yet leads to a more discriminative representation that achieves higher linear SVM classification accuracy than the benchmark. In addition, the proposed decoder structure is shown, in theory, to be a generic architecture that is able to reconstruct an arbitrary point cloud from a 2D grid. Finally, this folding-based decoder is interpretable since the reconstruction could be viewed as a fine granular warping from the 2D grid to the point cloud surface.

研究动机与目标

  • 解决3D点云上无监督表示学习的问题,其中标注数据稀缺。
  • 在不依赖监督信号的情况下,提升自编码过程中的特征可分性。
  • 设计一种轻量化但强大的解码器,以在重建过程中保持几何结构。
  • 通过将重建建模为从2D网格到3D表面的细粒度形变,实现可解释的3D重建。

提出的方法

  • 编码器在PointNet基础上引入基于图的增强,以更好地捕捉输入点云中的局部几何结构。
  • 使用2D网格作为潜在码,随后通过可学习函数将其转换为点云的3D坐标。
  • 折叠操作通过可微、参数高效的函数,将每个2D网格点映射到3D坐标,学习局部形变。
  • 解码器通过端到端训练以重建原始点云,最小化重建损失。
  • 理论上证明折叠机制是一种通用架构,能够从2D网格重建任意点云。
  • 通过将重建视为2D网格向3D表面的形变过程,实现可解释的生成。

实验结果

研究问题

  • RQ12D网格能否作为3D点云重建的紧凑且有效的潜在表示?
  • RQ2如何在无监督自编码中更好地保持点云中的局部几何结构?
  • RQ3基于折叠的解码器能否以远少于全连接解码器的参数量,实现更优的判别性表征?
  • RQ4折叠机制是否具有可解释性,其重建过程是否可被理解为从2D到3D的形变过程?
  • RQ5所提出的自编码器是否在下游线性分类任务中优于现有无监督基线方法?

主要发现

  • 基于折叠的解码器仅使用全连接解码器约7%的参数量,同时实现了更高的线性SVM分类准确率。
  • 所提模型在无监督点云学习中相比基准方法实现了更优的判别性表征。
  • 理论分析证实,折叠解码器是一种通用架构,能够从2D网格重建任意点云。
  • 重建过程具有可解释性,可被视作2D网格向3D表面的细粒度形变。
  • 图增强的编码器提升了局部结构学习能力,从而改善了整体重建质量和表征质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。