[論文レビュー] DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving
DriveMLMは、モジュール型自動運転ビヘイビアプランナーと整合したマルチモーダルLLMプランナーを導入し、CARLAでのクローズループ走行を可能にし、意思決定の説明を提供し、Town05 LongでApolloを上回る。
Large language models (LLMs) have opened up new possibilities for intelligent agents, endowing them with human-like thinking and cognitive abilities. In this work, we delve into the potential of large language models (LLMs) in autonomous driving (AD). We introduce DriveMLM, an LLM-based AD framework that can perform close-loop autonomous driving in realistic simulators. To this end, (1) we bridge the gap between the language decisions and the vehicle control commands by standardizing the decision states according to the off-the-shelf motion planning module. (2) We employ a multimodal LLM (MLLM) to model the behavior planning module of a module AD system, which uses driving rules, user commands, and inputs from various sensors (e.g., camera, lidar) as input and makes driving decisions and provide explanations; This model can plug-and-play in existing AD systems such as Autopilot and Apollo for close-loop driving. (3) We design an effective data engine to collect a dataset that includes decision state and corresponding explanation annotation for model training and evaluation. We conduct extensive experiments and show that replacing the decision-making modules of the Autopilot and Apollo with DriveMLM resulted in significant improvements of 3.2 and 4.7 points on the CARLA Town05 Long respectively, demonstrating the effectiveness of our model. We hope this work can serve as a baseline for autonomous driving with LLMs.
研究の動機と目的
- 言語ベースの意思決定と車両制御のギャップを埋めるために、LLM出力をビヘイビアプランニング状態と整合させる。
- マルチモーダルLLMプランナーを開発し、マルチビュー画像、LiDAR、ルール、指示を取り込んで運転決定と説明を予測する。
- 意思決定状態と説明を用いたトレーニング・評価のための効率的なデータエンジンを作成。
- 現実的なシミュレータでクローズドループ走行を実証し、標準ベンチマークでApolloと比較。
提案手法
- Apollo風プランナーで実行可能な速度・経路決定へ、ビヘイビアプランニング状態をLLM出力と整合させる。
- マルチモーダルトークン化器(画像用時間的QFormer、LiDAR用SPT+QFormer、およびテキスト埋め込み)とLLMデコーダを組み合わせて決定状態と説明を出力するMLLMプランナー。
- 時間的多視画像を線形トークン増加なしに効率的に処理するためのTemporal QFormer設計。
- 専門家運転とGPT-3.5による注釈拡張を用いて、意思決定状態と説明を含む280時間のCARLAデータを生成するデータエンジン。
- ViT-g/14ビジュアルエンコーダ、画像トークン32クエリ、LiDAR用GD-MAE、AdamW最適化、学習率5e-5、エポック数2、バッチサイズ256を用いたLLaMA-7Bでのトレーニング設定。
- Driving Score(DS)、Route Completion(RC)、Infraction Score(IS)、Miles Per Intervention(MPI)、説明のNLPベース指標(BLEU-4、CIDEr、METEOR)を評価指標とする。
![(a) Rule-Based Autonomous Driving System [ 3 ]](https://ar5iv.labs.arxiv.org/html/2312.09245/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1LLMベースのプランナーを伝統的なビヘイビアプランニングの意思決定状態と整合させ、クローズドループ自動運転を実現できるか。
- RQ2マルチモーダルLLMプランナーは、ルールベースFSMベースラインと比較して意思決定の精度と運転の安全性を改善するか。
- RQ3運転決定とその説明は、言語条件付きプロンプトを通じて解釈可能かつ制御可能か。
- RQ4センサ modality(画像、LiDAR)と時間的処理は決定の精度と説明可能性にどのように影響するか。
主な発見
| Method | DS | RC | IS | MPI |
|---|---|---|---|---|
| Roach | 43.6 | 80.4 | 0.54 | - |
| Interfuser | 68.3 | 95.0 | 0.72 | 0.70 |
| ThinkTwice | 70.9 | 95.5 | 0.75 | 0.40 |
| Apollo | 71.4 | 92.2 | 0.80 | 0.76 |
| DriveMLM | 76.1 | 98.1 | 0.78 | 0.96 |
- DriveMLMはCARLA Town05 Longで76.1のDriving Scoreを達成し、Apolloを4.7DSポイント上回る。
- DriveMLMは98.1のRoute Completionと0.78のInfraction Scoreを達成し、MPIは0.96で人間介入が少ないことを示す。
- 決定予測精度と決定タイプF1スコアは、DriveMLMがApolloおよび以前のLLMベースラインより高い。
- DriveMLMはBLEU-4 0.89、CIDEr 0.91、METEOR 0.61で高品質な説明を提供。
- アブレーションにより、Temporal QFormerを用いたマルチビュー画像が最良の性能(Path F1とSpeed F1の改善、全体精度約18.2%向上)を示すことが判明。
- DriveMLMはnuScenesでゼロショット推論を示し、救急車への譲りや交通ルールの調整など、指示の影響を柔軟に示すことができる。
![(b) End-to-End Autonomous Driving System [ 25 , 27 , 57 ]](https://ar5iv.labs.arxiv.org/html/2312.09245/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。