QUICK REVIEW

[論文レビュー] DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

Zhenhua Xu, Yujia Zhang|arXiv (Cornell University)|Oct 2, 2023

Topic Modeling被引用数 18

ひとこと要約

DriveGPT4 は、アクションと推論に関する自然言語の質問に答えながら、ビデオから次のステップの車両制御を予測するマルチモーダルな LLM を用いた、解釈可能なエンドツーエンド自動運転システムです。

ABSTRACT

Multimodal large language models (MLLMs) have emerged as a prominent area of interest within the research community, given their proficiency in handling and reasoning with non-textual data, including images and videos. This study seeks to extend the application of MLLMs to the realm of autonomous driving by introducing DriveGPT4, a novel interpretable end-to-end autonomous driving system based on LLMs. Capable of processing multi-frame video inputs and textual queries, DriveGPT4 facilitates the interpretation of vehicle actions, offers pertinent reasoning, and effectively addresses a diverse range of questions posed by users. Furthermore, DriveGPT4 predicts low-level vehicle control signals in an end-to-end fashion.These advanced capabilities are achieved through the utilization of a bespoke visual instruction tuning dataset, specifically tailored for autonomous driving applications, in conjunction with a mix-finetuning training strategy. DriveGPT4 represents the pioneering effort to leverage LLMs for the development of an interpretable end-to-end autonomous driving solution. Evaluations conducted on the BDD-X dataset showcase the superior qualitative and quantitative performance of DriveGPT4. Additionally, the fine-tuning of domain-specific data enables DriveGPT4 to yield close or even improved results in terms of autonomous driving grounding when contrasted with GPT4-V.

研究の動機と目的

大型言語モデル（LLMs）を用いた解釈性を備えたエンドツーエンドの自動運転を促進する。
動画とテキストを処理して低レベルの車両制御を予測するマルチモーダル LLM システムを開発する。
運転用のビジュアル指示チューニングデータセットを作成し、BDD-X で grounding および QA 能力の改善を実証する。
タスクおよびドメイン固有データでのファインチューニングが、ベースラインに対して性能を改善することを示す。

提案手法

複数フレームのビデオをビデオトークナイザーで処理し、フレームをテキストドメインのトークンに変換する。
固定形式のデトークナイザーを使用して、自然言語の応答とエンドツーエンドの制御信号の両方を出力する。
基盤 LLM として LLaMA 2 を採用し、ビデオおよびテキスト入力をテキストドメインへ投影して共同推論を行う。
2段階で訓練する: CC3M/WebVid-2M でのビデオとテキストの整合性の事前学習と、運転特化データと一般的な指示遵守データを混成したミックスファインチューニング。
特権情報（YOLOv8 の検出、真の制御、キャプション）を用いて ChatGPT/GPT-4 の支援を受けた運転特有のビジュアル指示チューニングデータセットを作成する。
BDD-X データセットを用いて解釈とエンドツーエンド制御タスクを評価し、ADAPT や他のマルチモーダル LLM などのベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1運転データで基づいたマルチモーダル LLM は車両の動作を解釈し、自然言語で決定を正当化できるか。
RQ2DriveGPT4 はビデオ入力から次のステップの速度とターン角を正確に予測できるか。
RQ3タスク特化の運転データと一般的な指示遵守データを組み合わせることで、QA およびコントロールの grounding が改善されるか。
RQ4説明、正当化、および制御タスクにおける BDD-X データセットで、DriveGPT4 は最先端のベースラインとどう比較されるか。
RQ5他ドメイン（例: NuScenes、ビデオゲーム）へのゼロショット一般化能力はどの程度か。

主な発見

DriveGPT4 は BDD-X テストセットの行動の説明、行動の正当化、および完全な QA で ADAPT ベースラインを上回り、特に難しい運転シナリオで優れている。
DriveGPT4 は ADAPT と比較して制御信号予測（速度とターン角）で優れており、複数の閾値にわたる RMSE および精度指標が改善されている。
運転特化の QA データと一般的な指示遵守データを混成したファインチューニングは、運転データのみを用いる場合より性能を大幅に向上させる。
定性的な結果は、DriveGPT4 が一貫したテキスト説明を生成し制御を予測できることを示し、NuScenes およびビデオゲームデータでゼロショット一般化が示された。
アブレーション研究は、BDD-X の QAs と ChatGPT 生成の QAs の両方を含めること、および混成ファインチューニング戦略が性能向上に重要であることを確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。