Skip to main content
QUICK REVIEW

[论文解读] SalsaNext: Fast, Uncertainty-aware Semantic Segmentation of LiDAR Point Clouds for Autonomous Driving

Tiago Cortinhal, George Tzelepis|arXiv (Cornell University)|Mar 7, 2020
Advanced Neural Network Applications参考文献 47被引用 100
一句话总结

SalsaNext 在 SalsaNet 上加入上下文模块、膨胀残差块、像素洗牌上采样、Lovász-Softmax 损失,以及贝叶斯不确定性估计,以实现实时、具不确定性感知的 LiDAR 语义分割,在 Semantic-KITTI 上排名第一。

ABSTRACT

In this paper, we introduce SalsaNext for the uncertainty-aware semantic segmentation of a full 3D LiDAR point cloud in real-time. SalsaNext is the next version of SalsaNet [1] which has an encoder-decoder architecture where the encoder unit has a set of ResNet blocks and the decoder part combines upsampled features from the residual blocks. In contrast to SalsaNet, we introduce a new context module, replace the ResNet encoder blocks with a new residual dilated convolution stack with gradually increasing receptive fields and add the pixel-shuffle layer in the decoder. Additionally, we switch from stride convolution to average pooling and also apply central dropout treatment. To directly optimize the Jaccard index, we further combine the weighted cross-entropy loss with Lovasz-Softmax loss [2]. We finally inject a Bayesian treatment to compute the epistemic and aleatoric uncertainties for each point in the cloud. We provide a thorough quantitative evaluation on the Semantic-KITTI dataset [3], which demonstrates that the proposed SalsaNext outperforms other state-of-the-art semantic segmentation networks and ranks first on the Semantic-KITTI leaderboard. We also release our source code https://github.com/TiagoCortinhal/SalsaNext.

研究动机与目标

  • 为自动驾驶利用 3D LiDAR 数据实现可靠、实时的语义理解而提供动机。
  • 开发一个能够给出逐点精确标签且具有量化的 epistemic 与 aleatoric 不确定性的网络。
  • 在保持实时性能的同时,改进相对 SalsaNet 的上下文感知与效率。

提出的方法

  • 引入一个具有残差膨胀卷积栈的上下文模块以捕获全局 360 度上下文。
  • 用膨胀卷积堆栈(速率 2、核大小 3/5/7)替代编码器的 ResNet 模块,并进行拼接与残差连接。
  • 在解码器中使用像素洗牌层以避免棋盘伪影并提高上采样效率。
  • 在编码器中加入中心 dropout,将编码器下采样改为平均池化,并使用 1x1 卷积以匹配类别通道数。
  • 通过将加权交叉熵损失与 Lovász-Softmax 损失相结合的损失函数来优化训练,从而直接最大化 IoU。
  • 通过 MC 采样和受 ADF 启发的传播,在不重新训练的情况下实现对 epistemic 与 aleatoric 不确定性的贝叶斯处理。

实验结果

研究问题

  • RQ1SalsaNext 能否在 Semantic-KITTI 上超越最先进的投影方法和点云级别的 3D LiDAR 分割方法?
  • RQ2模型是否能够为 LiDAR 分割提供可靠的不确定性估计(epistemic 与 aleatoric)?
  • RQ3结构性变更(上下文模块、膨胀块、像素洗牌、损失函数)对分割准确性与效率有何影响?

主要发现

  • SalsaNext 在 Semantic-KITTI 测试集上实现 59.5% 的平均 IoU,超越前人方法并在榜单上排名第一。
  • 消融实验显示上下文模块、膨胀卷积、像素洗牌和 Lovász-Softmax 损失的累计增益,最终在 SalsaNet 的平均 IoU 上提升约 0.7 个百分点。
  • SalsaNext 提供具有竞争力的运行时(每帧约 41.26 ms,总体参数增加约 0.15M),相对于 SalsaNet。
  • 该模型为每个点提供 epistemic 与 aleatoric 不确定性,使预测具备不确定性感知,提升自动化安全性。
  • 定性结果显示对自信预测的不确定性较低,在边界或远距离物体处的不确定性较高。
  • SalsaNext 的平均 IoU(59.5)高于 SalsaNet 的变体,在若干类别(如道路、植被、地形)实现了更好的逐类别性能。
  • 运行时对比表明 SalsaNext 在准确性与速度之间取得平衡,达到 24 Hz 的吞吐量,参数量 6.73M,GFLOPs 为 125.68。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。