[论文解读] SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud
SqueezeSeg 在球面投影的 LiDAR 数据上提供端到端CNN管线,并采用循环CRF细化,用于实时道路对象分割,在KITTI上实现高精度和快速帧率,并通过合成的GTA-V数据获得额外收益。
In this paper, we address semantic segmentation of road-objects from 3D LiDAR point clouds. In particular, we wish to detect and categorize instances of interest, such as cars, pedestrians and cyclists. We formulate this problem as a point- wise classification problem, and propose an end-to-end pipeline called SqueezeSeg based on convolutional neural networks (CNN): the CNN takes a transformed LiDAR point cloud as input and directly outputs a point-wise label map, which is then refined by a conditional random field (CRF) implemented as a recurrent layer. Instance-level labels are then obtained by conventional clustering algorithms. Our CNN model is trained on LiDAR point clouds from the KITTI dataset, and our point-wise segmentation labels are derived from 3D bounding boxes from KITTI. To obtain extra training data, we built a LiDAR simulator into Grand Theft Auto V (GTA-V), a popular video game, to synthesize large amounts of realistic training data. Our experiments show that SqueezeSeg achieves high accuracy with astonishingly fast and stable runtime (8.7 ms per frame), highly desirable for autonomous driving applications. Furthermore, additionally training on synthesized data boosts validation accuracy on real-world data. Our source code and synthesized data will be open-sourced.
研究动机与目标
- 开发一个端到端的基于 CNN 的管线,用于对来自三维 LiDAR 点云的道路对象进行逐点语义分割。
- 采用受 SqueezeNet 启发的轻量化架构来减少内存和计算量。
- 通过将 CRF 作为循环层来细化标签映射,从而提升分割精度。
- 利用 GTA-V 的合成数据来扩充真实世界的 KITTI 数据,提升性能。
提出的方法
- 将3D LiDAR点投影到密集的2D球面网格中,形成适合CNN的图像样输入。
- 改编自 SqueezeNet 的架构,采用 fire 模块和 fireDeconvs 以实现实时、低参数的分割。
- 通过最终的 softmax 层产生逐点标签概率,生成逐点标签映射。
- 使用实现为RNN的均场CRF对概率标签映射进行细化,支持端到端训练。
- 可选地在带标签的点上应用聚类(如 DBSCAN)以实现实例级分割。
- 在 KITTI 上训练和评估,并用 GTA-V 合成的 LiDAR 数据来增强训练以提高精度。
实验结果
研究问题
- RQ1一个在球面投影 LiDAR 数据上运行的轻量级 CNN 是否能够实现对道路对象的准确、实时语义分割?
- RQ2集成循环 CRF 是否能提高边界精度和 LiDAR 基于的分割的总体 IoU?
- RQ3GTA-V 的合成数据对 KITTI 基准性能的影响究竟如何?
- RQ4将 CNN-CRF 联合管线用于三维 LiDAR 分割的端到端训练可行吗?
主要发现
- SqueezeSeg 配合 CRF 在汽车类别上的 IoU 高于不使用 CRF 的情况(类级别:64.6 对 60.9,带 CRF 的汽车)。
- CRF 提升了精度,提升了实例级车的 IoU 以及 P/R 指标(car with CRF: IoU 59.5;without CRF: IoU 56.7)。
- 在有无 CRF 配置下,汽车类的召回率均高于 90% 以上,表明假阴性较低。
- 行人和自行车对象由于实例较少、尺度较小,性能较低;CRF 的收益参差不齐。
- 实时运行时长:SqueezeSeg 无 CRF 时为 8.7 ms/帧;有 CRF 时在 TITAN X 上为 13.5 ms/帧;用于实例的 DBSCAN 聚类增加额外成本(平均 27.3 ms)。
- 使用 GTA-synthesized 数据结合 KITTI 训练,相比仅 KITTI 可以在汽车分割上获得更高的 IoU。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。