Skip to main content
QUICK REVIEW

[论文解读] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

Charles R. Qi, Hao Su|arXiv (Cornell University)|Dec 2, 2016
3D Shape Modeling and Analysis参考文献 25被引用 2,879
一句话总结

PointNet 直接使用原始的、无序的三维点云,采用对称的最大池化结构来执行三维对象分类、部件分割和场景语义解析,具有理论保证和强有力的经验结果。

ABSTRACT

Point cloud is an important type of geometric data structure. Due to its irregular format, most researchers transform such data to regular 3D voxel grids or collections of images. This, however, renders data unnecessarily voluminous and causes issues. In this paper, we design a novel type of neural network that directly consumes point clouds and well respects the permutation invariance of points in the input. Our network, named PointNet, provides a unified architecture for applications ranging from object classification, part segmentation, to scene semantic parsing. Though simple, PointNet is highly efficient and effective. Empirically, it shows strong performance on par or even better than state of the art. Theoretically, we provide analysis towards understanding of what the network has learnt and why the network is robust with respect to input perturbation and corruption.

研究动机与目标

  • 开发一个直接对无序的三维点集进行操作的神经网络,而不进行体素化或渲染。
  • 在学习到的表示中确保置换不变性和变换(刚性/仿射)不变性。
  • 提供一个用于对象分类、部件分割和场景语义解析的统一体系结构。
  • 提供关于通用近似性、稳定性以及对输入扰动鲁棒性的理论分析。
  • 在标准3D基准数据集上展示经验性能,并分析效率与可扩展性。

提出的方法

  • 使用对称函数(最大池化)将每点特征聚集为全局形状描述符,从而实现置换不变性。
  • 通过共享的多层感知机(MLP)计算每点特征,然后通过最大池化形成全局向量。
  • 纳入输入和特征变换网络(T-net),对点坐标和学习到的特征进行规范化,并通过正则化项使特征变换保持在接近正交的状态。
  • 对于分割,将全局特征与每个点的局部特征拼接后再应用逐点分类器,以产生逐点标签。
  • 提供理论分析,显示连续集合函数的通用近似性以及对鲁棒性的有界解释(关键点集)。
  • 展示对缺失点、离群点和扰动的鲁棒性,并与基于体素、多视图以及其他3D表示进行比较。

实验结果

研究问题

  • RQ1神经网络是否能够直接处理无序点集,同时保持置换不变性?
  • RQ2是否可以用一个单一架构有效处理多种3D任务(分类、部件分割、场景分割)?
  • RQ3模型对输入扰动、缺失数据和离群点的鲁棒性如何?
  • RQ4哪些理论性质可以解释网络的性能与鲁棒性?
  • RQ5PointNet 与标准3D基准上的最先进方法相比如何?

主要发现

  • PointNet 在 ModelNet40 上仅使用 3D 输入(点云)时相对于体素和多视图方法达到最先进的性能。
  • 该模型在 ModelNet40 分类任务上实现平均类别准确率 86.2% 和总体准确率 89.2%。
  • 在 ShapeNet 的形状部件分割中,PointNet 的均值 IoU 为 47.71%,总体准确率为 78.62%。
  • 在斯坦福3D数据集的语义场景分割中,PointNet 超过了手工特征基线(表3中报告了显著提升)。
  • 该网络对部分数据和离群点具有鲁棒性,在删除多达50%点时准确率仅有小幅下降,并且对多达20%离群点具有韧性。
  • PointNet 在时间/空间复杂度为 O(N) 的情况下计算效率高,在高端GPU上用于分类每秒可处理超过 1M 个点,在分割大约每秒处理 2 间房。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。