Skip to main content
QUICK REVIEW

[論文レビュー] InstaGraM: Instance-level Graph Modeling for Vectorized HD Map Learning

Juyeb Shin, Hyeonjun Jeong|arXiv (Cornell University)|Jan 10, 2023
Advanced Neural Network Applications被引用数 9
ひとこと要約

InstaGraM は、BEV空間での頂点点とエッジマップを検出し、それらをインスタンスレベルのグラフに関連付けることによって、ベクトル化されたHDマップのポリライン要素を予測するエンドツーエンドのCNN-GNNパイプラインを提示し、従来のベクトル化HDマップ手法より推論を高速化し、mAPを向上させる。

ABSTRACT

For scalable autonomous driving, a robust map-based localization system, independent of GPS, is fundamental. To achieve such map-based localization, online high-definition (HD) map construction plays a significant role in accurate estimation of the pose. Although recent advancements in online HD map construction have predominantly investigated on vectorized representation due to its effectiveness, they suffer from computational cost and fixed parametric model, which limit scalability. To alleviate these limitations, we propose a novel HD map learning framework that leverages graph modeling. This framework is designed to learn the construction of diverse geometric shapes, thereby enhancing the scalability of HD map construction. Our approach involves representing the map elements as an instance-level graph by decomposing them into vertices and edges to facilitate accurate and efficient end-to-end vectorized HD map learning. Furthermore, we introduce an association strategy using a Graph Neural Network to efficiently handle the complex geometry of various map elements, while maintaining scalability. Comprehensive experiments on public open dataset show that our proposed network outperforms state-of-the-art model by $1.6$ mAP. We further showcase the superior scalability of our approach compared to state-of-the-art methods, achieving a $4.8$ mAP improvement in long range configuration. Our code is available at https://github.com/juyebshin/InstaGraM.

研究の動機と目的

  • オフラインで事前構築されたマップを用いず、オンラインHDマップ学習を促進する。
  • 幾何情報、意味情報、インスタンス情報を組み合わせたHDマ map要素(ポリライン)のグラフベースのベクトル表現を提案する。
  • リアルタイム性能のためのエンドツーエンドネットワーク(BEV特徴抽出、要素検出、グラフベースの関連付け)を開発する。
  • 提案手法がnuScenesで精度と速度の点で最先端のベクトル化HDマップ手法を上回ることを示す。

提案手法

  • 複数視点画像からの統一的な BEV特徴抽出をニューラルビュー変換で実現する。
  • 興味点デコーダによってマップ要素頂点を検出し、頂点ヒートマップを生成する。
  • 距離変換ベースのエデジェンムを用いて局所的なエッジマップを予測し、方向情報を符号化する。
  • 頂点埋め込みと局所的なエッジ情報を用いて初期グラフを構築する。
  • Sinkhornベースの最適マッチングを用いる注意機構付きGraph Neural Network(SuperGlue風)によりインスタンスレベルの隣接性を予測する。
  • 頂点ヒートマップ、距離変換、隣接性、頂点分類の損失でエンドツーエンド学習を行う。

実験結果

リサーチクエスチョン

  • RQ1マルチカメラBEV特徴からインスタンスレベルのグラフモデルはベクトル化HDマップ要素(ポリライン)を効果的に再構成できるか。
  • RQ2距離変換ベースのエ情報と位置埋め込みを組み込むとマップ頂点間の対応と隣接予測が改善されるか。
  • RQ3カメラのみ入力時に nuScenes での精度(mAP)と速度(FPS)は既存のベクトル化HDマップ手法と比較してどうか。
  • RQ4BEV変換の選択とGNN層数が全体の性能に与える影響はどの程度か。

主な発見

方法AP_区分AP_pedAP_boundarymAPFPS
InstaGraM (EffiNet-B0, 30 epochs)40.830.039.236.720.3
InstaGraM (EffiNet-B4, 30 epochs)47.233.844.041.718.2
  • InstaGraM は HDMapNet より高い mAP を達成し、VectorMapNet に対しても競争力のある性能を示し、カメラモダリティ下で推論が高速化される。
  • EfficientNet-B4 バックボーンを用いると、InstaGraM は nuScenes でカメラ入力を使用して mAP 41.7 および 18.2 FPS を達成する。
  • EfficientNet-B0 バックボーンを用いると、InstaGraM は mAP 36.7 および 20.3 FPS を達成する。
  • 距離変換と位置埋め込みはグラフ結合の品質を有意に向上させ、ビジュアル記述子ベースの埋め込みよりもアブレーションで優れていた。
  • GNN 層数を増やすと精度は最大7層付近で飽和点まで改善され、それ以降の持続的改善は限定的である。
  • ヘビーな後処理を伴わずにエンドツーエンドのベクトル化HDマップ学習を実現し、リアルタイム性能を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。