[論文レビュー] A Language Agent for Autonomous Driving
Agent-Driverは大規模言語モデルを自律運転エージェントとして活用し、ツールライブラリ、認知記憶、推論エンジンを組み込んで、解釈性と少数ショット学習を備えつつnuScenesで最先端手法を上回る。
Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods.
研究の動機と目的
- 人間の事前知識と推論能力を活用して、認識-予測-計画からLLM駆動のエージェントパラダイムへ自動運転のシフトを促す。
- ツールライブラリ、認知記憶、推論エンジンを通じてニューラルモジュールと言語ベースのインターフェースを統合するモジュラーアーキテクチャを導入する。
- LLM駆動の推論が大規模な運転ベンチマークにおいて計画の品質、安全性、解釈性を向上させることを示す。
- 少数ショット学習能力とモジュール代替および異なるLLMに対する頑健性を示す。
- 各アーキテクチャコンポーネントの寄与を解明するアブレーション研究を提供する。
提案手法
- 従来の自動運転をテキストベースのインターフェースを備えたLLMガイド型エージェントアーキテクチャに変換する。
- ニューラルモジュールの出力(検知、予測、占有情報、地図)をテキストメッセージへ変換し、動的な関数呼び出しをサポートするツールライブラリを開発する。
- 常識と経験メモリを備えた認知記憶を組み込み、関連ルールや過去の状況を2段階検索(埋め込みベースのK-NN、次にLLMベースのランキング)を介して取得する。
- チェーン・オブ・ソート思考、タスク計画、運動計画(テキスト生成として)、セルフリフレクション(衝突チェックと軌道の洗練)を実行する推論エンジンを採用する。
- 人間の運転軌跡で運動計画LLMsをファインチューニングし、推論と計画モジュールにはインコンテキスト学習を用いる。テキスト軌道を実行用の物理軌道へ戻して変換する。
実験結果
リサーチクエスチョン
- RQ1LLMベースの認知エージェントは、人間の事前知識と経験的知識を自動運転の意思決定にどのように統合できるか?
- RQ2ツールライブラリと記憶主導の推論アプローチは、従来のパイプラインと比べて安全性、計画の正確性、解釈性を改善するか?
- RQ3Agent-Driverは強力な少数ショット学習性能を発揮し、異なるニューラルモジュールとLLM間で安定性を維持できるか?
- RQ4システムの運動計画性能と衝突率に対するアブレーションの影響は?
- RQ52段階のメモリ検索(埋め込み+LLMランキング)は意思決定の品質にどのように寄与するか?
主な発見
- Agent-DriverはnuScenesで最先端手法と比較してL2誤差と衝突率の双方で運動計画性能を大きく向上させる。
- ST-P3指標では、Agent-Driverが最も低い平均L2誤差を達成し、2番目に良い手法と比べて平均衝突を大幅に削減(約35.7%低い)。
- UniAD指標では、Agent-DriverはL2=0.74 m、衝突率0.21%を達成し、2番目に良い手法に比べて大幅なマージンで上回る(約11.9%のL2改善と32.3%の衝突改善)。
- 本手法は強い少数ショット学習を示し、0.1%の訓練データで競争力のある性能を発揮し、1%のデータで衝突率の全データベースBaselineを上回る。
- アブレーション研究は、ツールライブラリ、常識メモリ、経験メモリ、推論、タスク計画、自己反省のすべてのコンポーネントが性能に寄与することを示し、特に自己反省が衝突率を顕著に低減する。
- Agent-Driverは異なるニューラルモジュールとLLMに対する互換性を維持し、訓練データが限られていても出力の安定性が高いことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。