QUICK REVIEW

[论文解读] Classification of Point Cloud Scenes with Multiscale Voxel Deep Network

Xavier Roynard, Jean‐Emmanuel Deschaud|arXiv (Cornell University)|Apr 10, 2018

3D Surveying and Cultural Heritage参考文献 24被引用 48

一句话总结

引入多尺度3D CNN（MS DeepVoxScene），使用多尺度体素网格对场景点云进行分类，在 Semantic3D 上获得强劲结果并在跨数据集表现具竞争力。

ABSTRACT

In this article we describe a new convolutional neural network (CNN) to classify 3D point clouds of urban or indoor scenes. Solutions are given to the problems encountered working on scene point clouds, and a network is described that allows for point classification using only the position of points in a multi-scale neighborhood. On the reduced-8 Semantic3D benchmark [Hackel et al., 2017], this network, ranked second, beats the state of the art of point classification methods (those not using a regularization step).

研究动机与目标

为自动化大规模城市与室内点云的语义分类提供动机，以支持自主制图与导航。
开发平衡类别表示的训练策略，以应对高度不平衡的场景数据。
提出一种多尺度3D CNN 架构，利用上下文信息与局部几何特征实现鲁棒的场景标注。

提出的方法

在完全标注的已登记点云上训练，按每个 epoch 进行随机的类别平衡采样。
围绕采样点构建3D占据网格，并将其输入到大小为32x32x32的体素化输入的3D CNN中。
通过聚合具有不同体素大小（例如 5 cm、10 cm、15 cm）的网络的特征并在最终分类前连接它们的1024维特征向量，使用多尺度变体（MS_K_DeepVoxScene）。
采用数据增强，包括轴翻转、随机偏航旋转、随机缩放、遮挡、伪影和高斯噪声；使用 ADAM 进行交叉熵优化。

实验结果

研究问题

RQ1多尺度体素基础的CNN是否能够同时捕捉细小局部几何特征与更广泛的场景上下文，从而实现准确的点云场景分类？
RQ2在训练过程中采用类别平衡采样策略是否能够提高对代表性不足的场景类别的性能？
RQ3在大规模三维场景数据集上，MS_K_DeepVoxScene 相较于单尺度体素网络和最先进的基于点的方法表现如何？

主要发现

提出的 MS3_DVS（采用 5 cm、10 cm、15 cm 体素的多尺度）在多个数据集上优于单尺度的对应方法。
该方法在 reduced-8 Semantic3D 基准测试中排名第二，超越了许多基于点的非正则化方法。
在 Paris-Lille-3D、Semantic3D 和 S3DIS 的测试中，相比单尺度基线，多尺度方法在若干类别（如建筑物、行人）的平均 F1 分数和每类召回率上有所提升。
在大多数数据集上，VoxNet 风格的基线（MS1_DVS）被多尺度网络超越，显示了尺度融合的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。