[論文レビュー] RGB and LiDAR fusion based 3D Semantic Segmentation for Autonomous Driving
本稿では、自律走行における3次元セマンティックセグメンテーションのため、RGB画像とLiDAR点群の早期およびミッドレベルの統合を提案する。極座標グリッドマッピング表現を用いてRGBデータとLiDARを幾何学的に整合させる。SqueezeSegおよびPointSegアーキテクチャを用いて、KITTIデータセット上でLiDARオンリーベースライン比で相対的に10%のmIoU向上を達成した。
LiDAR has become a standard sensor for autonomous driving applications as they provide highly precise 3D point clouds. LiDAR is also robust for low-light scenarios at night-time or due to shadows where the performance of cameras is degraded. LiDAR perception is gradually becoming mature for algorithms including object detection and SLAM. However, semantic segmentation algorithm remains to be relatively less explored. Motivated by the fact that semantic segmentation is a mature algorithm on image data, we explore sensor fusion based 3D segmentation. Our main contribution is to convert the RGB image to a polar-grid mapping representation used for LiDAR and design early and mid-level fusion architectures. Additionally, we design a hybrid fusion architecture that combines both fusion algorithms. We evaluate our algorithm on KITTI dataset which provides segmentation annotation for cars, pedestrians and cyclists. We evaluate two state-of-the-art architectures namely SqueezeSeg and PointSeg and improve the mIoU score by 10 % in both cases relative to the LiDAR only baseline.
研究の動機と目的
- 自律走行における3次元セマンティックセグメンテーション性能を、補完的なRGBおよびLiDARデータの統合によって向上させること。
- カメラからの豊富な色情報を取り入れることで、LiDARオンリーベースラインの限界を克服すること。
- 3次元セグメンテーションにおけるセンサーフュージョンのための早期およびミッドレベル統合戦略を体系的に評価すること。
- 特徴レベルでのRGBおよびLiDARデータの有効な統合を可能にする極座標グリッド表現を設計すること。
- 自律走行アプリケーションに適した実時間推論を維持しながら、KITTIベンチマークにおけるセグメンテーション精度を顕著に向上させること。
提案手法
- RGB画像を極座標グリッドマッピング表現に変換し、LiDAR点群の幾何構造と整合させる。
- CNNベースのアーキテクチャにおいて、特徴抽出の前段階でRGBおよびLiDARデータの生データを連結することで早期統合を実装する。
- RGBおよびLiDARの分離されたブランチから特徴を抽出し、その後で連結することでミッドレベル統合を実装する。
- 両者の統合戦略の利点を活かすために、早期およびミッドレベル統合を組み合わせたハイブリッド統合戦略を設計する。
- 提案された統合フレームワークを用いて、2つの最先端ネットワーク(SqueezeSegおよびPointSeg)を3次元セマンティックセグメンテーションに適応させる。
- 標準的な分割と評価指標(mIoUを含む)を用いて、KITTIデータセット上でモデルを学習および評価する。
実験結果
リサーチクエスチョン
- RQ1RGBおよびLiDARデータを統合することで、LiDARオンリーベースラインと比較して3次元セマンティックセグメンテーション性能がどのように向上するか?
- RQ23次元セマンティックセグメンテーションの文脈において、早期統合とミッドレベル統合の相対的な有効性は何か?
- RQ3極座標グリッド表現は、共同特徴学習のためのRGBおよびLiDARデータの効果的な整合を可能にするか?
- RQ4クラス不均衡および小規模なインスタンスサイズがセグメンテーション性能に与える影響は何か?統合はこれらの問題を緩和できるか?
- RQ5提案された統合アーキテクチャは、自律走行アプリケーションにおいて実時間推論速度をどの程度維持できるか?
主な発見
- 提案されたRGB-LiDAR統合アプローチは、SqueezeSegおよびPointSegアーキテクチャの両方において、LiDARオンリーベースライン比でmIoUを10%相対的に向上させた。
- SqueezeSegでは、XYZDI+DIRGBハイブリッド統合法が37.4%のmIoUを達成し、LiDARオンリーベースライン(33.7%)比で3.7%の絶対的向上を示した。
- PointSegでは、早期統合が37.8%のmIoUを達成し、LiDARオンリーベースライン(34.8%)比で3%の向上を示した。一方、ミッド統合は37.6%のmIoUを達成した。
- 歩行者および自転車乗りのクラスでは顕著な向上が見られた:PointSegにおける早期統合とミッド統合では、それぞれ3.3%および5.8%のmIoU向上が確認された。
- 1スキャンあたり約10msの実時間推論を達成し、ミッド統合は、統合なしベースライン比でわずか3msのオーバーヘッドにとどまった。
- 定性的な結果から、車両、歩行者、自転車のセグメンテーション精度が向上しており、特にオクルージョンや小規模な物体のケースで顕著な改善が確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。