QUICK REVIEW

[论文解读] The Perfect Match: 3D Point Cloud Matching with Smoothed Densities

Žan Gojčič, Caifa Zhou|arXiv (Cornell University)|Nov 16, 2018

3D Surveying and Cultural Heritage参考文献 48被引用 32

一句话总结

3DSmoothNet 提出了一种具有全卷积层的孪生深度学习架构，通过使用平滑密度值（SDV）和局部参考帧（LRF）来生成紧凑且旋转不变的三维点云描述子。其在 3DMatch 上实现了 94.9% 的平均召回率，仅使用 32 个维度，支持近实时的对应点搜索（每点 0.1 毫秒），并且即使仅在室内 RGB-D 数据上进行训练，也能有效泛化到室外激光扫描，召回率达到 79.0%。

ABSTRACT

We propose 3DSmoothNet, a full workflow to match 3D point clouds with a siamese deep learning architecture and fully convolutional layers using a voxelized smoothed density value (SDV) representation. The latter is computed per interest point and aligned to the local reference frame (LRF) to achieve rotation invariance. Our compact, learned, rotation invariant 3D point cloud descriptor achieves 94.9% average recall on the 3DMatch benchmark data set, outperforming the state-of-the-art by more than 20 percent points with only 32 output dimensions. This very low output dimension allows for near realtime correspondence search with 0.1 ms per feature point on a standard PC. Our approach is sensor- and sceneagnostic because of SDV, LRF and learning highly descriptive features with fully convolutional layers. We show that 3DSmoothNet trained only on RGB-D indoor scenes of buildings achieves 79.0% average recall on laser scans of outdoor vegetation, more than double the performance of our closest, learning-based competitors. Code, data and pre-trained models are available online at https://github.com/zgojcic/3DSmoothNet.

研究动机与目标

开发一种紧凑且旋转不变的三维局部特征描述子，以实现快速准确的点云匹配。
解决现有学习型描述子的局限性，包括跨传感器模态泛化能力差和输出维度过高。
创建一种与传感器和场景无关的方法，在包括室内 RGB-D 和室外激光扫描在内的多样化数据上均表现良好。
通过低维、高度描述性的特征实现近实时的对应点搜索。

提出的方法

该方法为每个兴趣点计算体素化的平滑密度值（SDV）表示，并将其对齐至局部参考帧（LRF），以确保旋转不变性。
SDV 通过在每个兴趣点的球形邻域上使用高斯平滑核计算，减少稀疏性并改善训练过程中的梯度流动。
一个孪生三维全卷积神经网络处理 3D SDV 体素网格，学习紧凑且高度描述性的局部描述子，输出维度为 16 或 32。
网络在 3DMatch 数据上端到端训练，使用对比损失优化判别性特征学习。
输入预处理包括：3DMatch 使用 1.5m 网格，室外 ETH 数据使用 1.5m 网格并增大球形半径（W=1m）。
该方法设计高效，推理和最近邻搜索时间分别仅为每点 0.3ms 和 0.1ms。

实验结果

研究问题

RQ1学习型三维局部描述子是否能在极低输出维度下实现高性能，同时保持旋转不变性？
RQ2在仅使用室内 RGB-D 数据训练的情况下，模型在自然场景的室外激光扫描上的泛化能力如何？
RQ3与原始或非平滑体素化相比，SDV 表示在提升训练稳定性和特征质量方面有何优势？
RQ4全卷积孪生网络架构是否能在准确性和推理速度两方面超越现有方法？
RQ5在不同数据集上，描述子维度（16 vs 32）在性能与速度之间的权衡如何？

主要发现

3DSmoothNet 在 3DMatch 基准上实现了 94.9% 的平均召回率，比所有先前的 SOTA 方法高出超过 20 个百分点。
仅使用 32 个输出维度，该方法在标准 PC 上实现了每特征点 0.1 毫秒的近实时对应点搜索。
该模型在室外激光扫描上表现出有效的泛化能力，在 ETH 数据集上达到 79.0% 的平均召回率，性能远超其他基于学习的方法（超过两倍）。
16 维描述子在 ETH 数据集上实现了 48.2% 的平均召回率，证明了其在低维情况下的强大性能。
与之前的工作相比，该方法显著降低了推理时间（0.3ms vs 3.7ms）和最近邻搜索时间（0.1ms vs 0.8ms）。
SDV 表示提升了训练稳定性，减少了边界效应，从而改善了梯度流动，并增强了对 LRF 估计误差的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。