[論文レビュー] SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud
SqueezeSegは球面投影LiDARデータ上でエンドツーエンドのCNNパイプラインを提供し、リアルタイムの道路物体セマンティック分割のための再帰的CRFによる改良を加え、KITTIで高精度と高速フレームレートを実現する。GTA-Vの合成データによる付加的メリットも併用。
In this paper, we address semantic segmentation of road-objects from 3D LiDAR point clouds. In particular, we wish to detect and categorize instances of interest, such as cars, pedestrians and cyclists. We formulate this problem as a point- wise classification problem, and propose an end-to-end pipeline called SqueezeSeg based on convolutional neural networks (CNN): the CNN takes a transformed LiDAR point cloud as input and directly outputs a point-wise label map, which is then refined by a conditional random field (CRF) implemented as a recurrent layer. Instance-level labels are then obtained by conventional clustering algorithms. Our CNN model is trained on LiDAR point clouds from the KITTI dataset, and our point-wise segmentation labels are derived from 3D bounding boxes from KITTI. To obtain extra training data, we built a LiDAR simulator into Grand Theft Auto V (GTA-V), a popular video game, to synthesize large amounts of realistic training data. Our experiments show that SqueezeSeg achieves high accuracy with astonishingly fast and stable runtime (8.7 ms per frame), highly desirable for autonomous driving applications. Furthermore, additionally training on synthesized data boosts validation accuracy on real-world data. Our source code and synthesized data will be open-sourced.
研究の動機と目的
- 3D LiDAR点群からの道路物体のポイントごとのセマンティックセグメンテーションのためのエンドツーエンドのCNNベースパイプラインを開発する。
- SqueezeNetに着想を得た軽量アーキテクチャを用いてメモリと計算を削減する。
- ラベルマップを refined するための再帰的レイヤとしてCRFを導入しセグメンテーション精度を向上させる。
- GTA-Vからの合成データをKITTI実データに追加して性能を改善する。
提案手法
- 3D LiDAR点を密な2D球状グリッドに投影してCNNへの画像のような入力を作成する。
- SqueezeNetに着想を得たアーキテクチャをファイヤーモジュールとfireDeconvsで適用し、リアルタイムで低パラメータのセグメンテーションを実現する。
- 最終のsoftmax層で各点のラベル確率を生成してポイントごとのラベルマップを作成する。
- 確率的ラベルマップをRNNとして実装されたmean-field CRFで refinement し、エンドツーエンドの訓練を可能にする。
- ラベル付き点に対してクラスタリング(例 DBSCAN)を適用してインスタンスレベルのセグメンテーションを行う。
- KITTIで訓練・評価を行い、GTA-V合成LiDARデータを用いて訓練を拡張して精度を向上させる。
実験結果
リサーチクエスチョン
- RQ1球面投影LiDARデータ上で動作する軽量CNNは、道路物体の正確でリアルタイムなセマンティック分割を実現できるか?
- RQ2再帰的CRFを統合することでLiDARベースのセグメンテーションの境界精度と全体のIoUは改善されるか?
- RQ3GTA-V由来の合成データはKITTIベースの性能にどのような影響を与えるか?
- RQ43D LiDAR分割のためのCNN-CRFパイプラインのエンドツーエンド訓練は実現可能か?
主な発見
| クラスレベルのP (CRFあり) | クラスレベルのR (CRFあり) | クラスレベルのIoU (CRFあり) | クラスレベルのP (CRFなし) | クラスレベルのR (CRFなし) | クラスレベルのIoU (CRFなし) | インスタンスレベルのP (CRFあり) | インスタンスレベルのR (CRFあり) | インスタンスレベルのIoU (CRFあり) | インスタンスレベルのP (CRFなし) | インスタンスレベルのR (CRFなし) | インスタンスレベルのIoU (CRFなし) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| car | 66.7 | 95.4 | 64.6 | 62.7 | 95.5 | 60.0 | 91.3 | 56.7 | 63.4 | 90.7 | 59.5 |
| pedestrian | 45.2 | 29.7 | 21.8 | 52.9 | 28.6 | 22.8 | 43.5 | 28.6 | 20.8 | 28.6 | 20.8 |
| cyclist | 35.7 | 45.8 | 25.1 | 35.2 | 51.1 | 26.4 | 30.1 | 43.7 | 21.7 | 30.1 | 21.7 |
- CRFを用いたSqueezeSegは、CRFなしと比べて車クラスのIoUが向上(クラスレベル: 64.6 vs 60.9、車でCRF)。
- CRFは精度を向上させ、インスタンスレベルの車のIoUとP/R指標を改善(車のIoU: CRFあり 59.5、CRFなし 56.7)。
- 車クラスはCRFあり・なしの両方でリコールが高く(>90%)偽陰性が少ないことを示している。
- 歩行者と自転車はインスタンス数が少なく対象物サイズが小さいため性能は低めで、CRFは混合的な効果。
- リアルタイム実行時間:SqueezeSeg CRFなしは8.7 ms/フレーム;CRFありは13.5 ms/フレーム(TITAN X);インスタンスのDBSCANクラスタリングは追加コストを伴い平均27.3 ms。
- GTA合成データとKITTIを組み合わせて訓練すると、KITTI単独より車のセグメンションの IoU がさらに向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。