[论文解读] SqueezeSegV2: Improved Model Structure and Unsupervised Domain Adaptation for Road-Object Segmentation from a LiDAR Point Cloud
SqueezeSegV2 提出了一种针对激光雷达道路目标分割的鲁棒深度学习模型,通过引入上下文聚合模块(CAM)减轻丢包噪声的影响,并采用三阶段域自适应流程——学习型强度渲染、测地相关性对齐和渐进式域校准——使在合成 GTA-V 数据上训练的模型在真实 KITTI 数据上实现了 57.4% 的 mIoU,性能近乎翻倍(相比原始 29.0%)。
Earlier work demonstrates the promise of deep-learning-based approaches for point cloud segmentation; however, these approaches need to be improved to be practically useful. To this end, we introduce a new model SqueezeSegV2 that is more robust to dropout noise in LiDAR point clouds. With improved model structure, training loss, batch normalization and additional input channel, SqueezeSegV2 achieves significant accuracy improvement when trained on real data. Training models for point cloud segmentation requires large amounts of labeled point-cloud data, which is expensive to obtain. To sidestep the cost of collection and annotation, simulators such as GTA-V can be used to create unlimited amounts of labeled, synthetic data. However, due to domain shift, models trained on synthetic data often do not generalize well to the real world. We address this problem with a domain-adaptation training pipeline consisting of three major components: 1) learned intensity rendering, 2) geodesic correlation alignment, and 3) progressive domain calibration. When trained on real data, our new model exhibits segmentation accuracy improvements of 6.0-8.6% over the original SqueezeSeg. When training our new model on synthetic data using the proposed domain adaptation pipeline, we nearly double test accuracy on real-world data, from 29.0% to 57.4%. Our source code and synthetic dataset will be open-sourced.
研究动机与目标
- 解决因域偏移导致在合成激光雷达数据上训练的模型泛化能力差的问题。
- 提升模型对真实激光雷达点云中丢包噪声的鲁棒性,这是性能下降的主要原因。
- 开发一种域自适应流程,仅使用合成数据和未标注的真实数据即可实现高性能分割。
- 在无需真实标注数据进行训练的前提下,实现在真实世界 KITTI 基准上的最先进性能。
提出的方法
- 引入上下文聚合模块(CAM),一种卷积神经网络组件,通过扩大感受野来提升对缺失点(由丢包噪声引起)的鲁棒性。
- 应用焦点损失以解决类别不平衡问题,特别是对行人和自行车等少数类别的提升。
- 引入批量归一化,并将激光雷达掩码作为额外输入通道以增强特征学习。
- 实施学习型强度渲染(LIR),一种自监督神经网络,利用未标注的真实数据预测合成点云的逼真强度值。
- 应用测地相关性对齐(GCA),在训练过程中对齐真实与合成数据分布的批量统计特性。
- 使用渐进式域校准(PDC)作为训练后的微调步骤,进一步减小域差异并提升真实世界泛化能力。
实验结果
研究问题
- RQ1修改后的 CNN 架构在多大程度上可降低对激光雷达点云中丢包噪声的敏感性,并提升在真实数据上的分割精度?
- RQ2当存在域偏移时,多大程度上可有效利用 GTA-V 合成数据实现真实世界激光雷达分割?
- RQ3多阶段域自适应流程(结合强度渲染、统计对齐和校准)在弥合合成与真实数据差距方面的有效性如何?
- RQ4提升模型对丢包噪声的鲁棒性是否可减小域差距,并增强从合成数据到真实数据的迁移性能?
主要发现
- 当在真实 KITTI 数据上训练时,SqueezeSegV2 在所有类别上相比原始 SqueezeSeg 的 mIoU 提升了 6.0% 至 8.6%。
- 引入 CAM 显著降低了模型对丢包噪声的敏感性,同时提升了真实数据和合成数据上的性能表现。
- 当在合成 GTA-V 数据上训练并配合完整的域自适应流程时,模型在真实 KITTI 测试集上达到 57.4% 的 mIoU,相比仅在合成数据上训练的基线模型(29.0%)实现了 28.4% 的绝对性能提升。
- 该域自适应流程优于未使用强度特征的 SqueezeSeg 模型在真实 KITTI 数据上训练的结果(57.4% vs. 57.1% 的 mIoU)。
- 测地相关性对齐和渐进式域校准均有效减小了域差异,其中 PDC 提供了最大的增量增益。
- 学习型强度渲染显著提升了性能,表明逼真的强度建模在激光雷达分割的域自适应中至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。