QUICK REVIEW

[论文解读] Tangent Convolutions for Dense Prediction in 3D

Maxim Tatarchenko, Jaesik Park|arXiv (Cornell University)|Jul 6, 2018

3D Shape Modeling and Analysis参考文献 51被引用 40

一句话总结

引入切线卷积，在不体素化的情况下直接对3D表面数据（点云）进行密集语义分割，使大型室内外场景的深度网络具备可扩展性，并优于若干基线。

ABSTRACT

We present an approach to semantic scene analysis using deep convolutional networks. Our approach is based on tangent convolutions - a new construction for convolutional networks on 3D data. In contrast to volumetric approaches, our method operates directly on surface geometry. Crucially, the construction is applicable to unstructured point clouds and other noisy real-world data. We show that tangent convolutions can be evaluated efficiently on large-scale point clouds with millions of points. Using tangent convolutions, we design a deep fully-convolutional network for semantic segmentation of 3D point clouds, and apply it to challenging real-world datasets of indoor and outdoor 3D environments. Experimental results show that the presented approach outperforms other recent deep network constructions in detailed analysis of large 3D scenes.

研究动机与目标

以表面几何而非体素化3D数据为动机进行语义场景分析。
开发适用于非结构化点云和其他嘈杂3D数据的卷积算子。
为密集逐点语义分割设计可扩展的深度网络（U-Net 风格）。
在大型室内外真实数据集上展示效率和可扩展性。

提出的方法

通过在每个点处将局部表面邻域投影到切线平面上以形成2D切线图像来定义切线卷积。
通过局部协方差分析估计切线平面，并使用最近邻或高斯核混合从3D点对切线图像进行信号插值。
通过预计算 g(u) 映射并使用与2D切线卷积完全对应的1D卷积，高效实现切线卷积。
扩展到多尺度分析，在已散列网格上进行池化/反池化，以处理具有不同密度的大规模点云。
将局部到切线平面的距离作为显式特征并连接多尺度距离特征。
采用带跳跃连接的全卷积U-Net风格架构，以实现密集逐点预测。

实验结果

研究问题

RQ1在每个点周围的切线平面上进行的切线卷积是否能够有效捕捉用于语义分割的局部几何结构？
RQ2如何高效实现切线卷积，以扩展到大型场景中的数百万个点？
RQ3基于表面的网络是否在室内外数据集上优于基于体素或图的3D深度学习方法？
RQ4输入信号（到切线平面的距离、高度、法线、颜色）对分割性能有何影响？

主要发现

所提出的切线卷积网络在室内外真实数据集上实现了强大的语义分割性能，优于若干新近的3D深度学习基线。
最近邻切线信号插值提供了与更复杂方案相当的性能，同时实现更为简单。
使用哈希网格下采样的多尺度池化实现了对大型场景的可扩展处理，同时不牺牲精度。
在实验中，几何信号（到切线平面的距离、法线）通常优于仅使用颜色在室内数据集上的表现，而颜色在像Semantic3D这样的某些户外数据集上有帮助。
该方法在Semantic3D、ScanNet和S3DIS上相比PointNet、OctNet和ScanNet基线，达到竞争或更优的mIoU和mA分数，且论文中给出有效的运行时和内存特征。
该方法支持在大型点云上实现高效的端到端训练和推理，得益于对切线平面映射的预计算以及基于TensorFlow的实现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。