QUICK REVIEW

[論文レビュー] FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

Tengju Ye, Jing Wei|arXiv (Cornell University)|Aug 2, 2023

Advanced Neural Network Applications被引用数 11

ひとこと要約

FusionADは、BEVベースのマルチセンサ（カメラ+ LiDAR）フュージョンフレームワークを提案し、FMSPnPモジュールとともに知覚・予測・計画を統合的に最適化します。nuScenesにおける予測と計画で最先端の成果を達成するとともに、カメラのみの手法と比較して知覚タスクの性能を向上させます。

ABSTRACT

Building a multi-modality multi-task neural network toward accurate and robust performance is a de-facto standard in perception task of autonomous driving. However, leveraging such data from multiple sensors to jointly optimize the prediction and planning tasks remains largely unexplored. In this paper, we present FusionAD, to the best of our knowledge, the first unified framework that fuse the information from two most critical sensors, camera and LiDAR, goes beyond perception task. Concretely, we first build a transformer based multi-modality fusion network to effectively produce fusion based features. In constrast to camera-based end-to-end method UniAD, we then establish a fusion aided modality-aware prediction and status-aware planning modules, dubbed FMSPnP that take advantages of multi-modality features. We conduct extensive experiments on commonly used benchmark nuScenes dataset, our FusionAD achieves state-of-the-art performance and surpassing baselines on average 15% on perception tasks like detection and tracking, 10% on occupancy prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score and reduces the collision rate from 0.31% to only 0.12%.

研究の動機と目的

自動運転における知覚・予測・計画を統合するために、カメラとLiDARを融合したエンドツーエンド学習を動機づける。
下流タスクのための統一されたマルチモーダル特徴を生成するBEVフュージョンTransformerを開発する。
融合特徴を活用して予測と計画を向上させるためのFMSPnP（fusion-aided modality-aware prediction and status-aware planning）を導入する。
知覚・運動予測・占有予測・計画の各領域でnuScenesベンチマークの改善を実証する。
フュージョンおよび計画コンポーネントの寄与を検証するアブレーション研究と定性的分析を提供する。

提案手法

Points cross-attention、Image cross-attention、およびTemporal self-attentionを用いた、カメラとLiDAR特徴を統合するBEVエンコーダを、トランスフォーマーに基づくマルチモーダル時系列フュージョン設定で実現する。
モダリティ自己注意とリファインメントネットを備えたフュージョン対応型予測モジュールが、マルチモーダル軌道学習と予測品質を向上させる。
学習可能な自車コマンド埋め込みとBEV特徴を用いた計画モジュール。推論時には微分可能な衝突損失と軌道最適化を備える。
3段階のトレーニング戦略：(i) BEVエンコーダと知覚タスクを訓練、(ii) エンコーダを固定し知覚+予測+計画を訓練、(iii) 追加の段階で占有推定と計画をさらに訓練するオプション。

実験結果

リサーチクエスチョン

RQ1BEVベースのカメラとLiDARの融合は、カメラのみのアプローチを超えたエンドツーエンドの結合知覚-予測-計画を改善できるか？
RQ2モダリティ認識予測とステータス認識計画をどのように設計して、マルチモーダル特徴を効果的に活用するか？
RQ3フュージョンベースの特徴は、衝突率などの下流の計画安全指標を自動運転シナリオで改善するか？
RQ4時間的・クロスモーダル注意機構がマルチタスクの自動運転性能に与える影響は何か？
RQ5提案手法は nuScenes ベンチマークの知覚・予測・占有・計画タスクでどのように性能を示すか？

主な発見

FusionADは nuScenesの複数タスクで最先端の成果を達成し、ベースラインと比較して知覚・予測・占有予測・計画を顕著に改善する。
予測誤差（ADE）は大幅に低減（例：ADEスコアが0.708から0.389へ）、衝突率は低下（0.31%から0.12%へ）.
モーション予測は顕著な向上を示し（例：minADEとminFDEがそれぞれ0.388と0.617へ改善）。
占有予測性能は顕著に改善（IoUとVPQ指標が明確な優位を示し、特に遠距離で有利）。
計画は平均および軌道衝突率を低減し、競争力のある変位誤差指標を達成。
アブレーション研究は、リファインメントネットとモード注意が予測の利益に寄与する主要因であること、そして自車認識型計画コンポーネントが計画の改善に不可欠であることを特定する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。