[논문 리뷰] A Language Agent for Autonomous Driving
Agent-Driver는 대형 언어 모델을 자율주행 에이전트로 활용하며 도구 라이브러리, 인지 기억, 추론 엔진을 도입해 해석 가능성과 few-shot 학습 측면에서 nuScenes에서 최첨단 방법을 능가한다.
Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods.
연구 동기 및 목표
- 인간의 선험 지식과 추론 능력을 활용하여 지각-예측-계획에서 LLM 주도 에이전트 패러다임으로의 전환을 촉진한다.
- 도구 라이브러리, 인지 기억, 그리고 추론 엔진을 통한 언어 기반 인터페이스로 신경 모듈을 통합하는 모듈식 아키텍처를 도입한다.
- 대규모 주행 벤치마크에서 LLM 구동 추론이 계획 품질, 안전성, 해석 가능성을 향상시킬 수 있음을 입증한다.
- few-shot 학습 능력과 모듈 대체 및 서로 다른 LLM에 대한 강건성을 선보인다.
- 각 구조 구성요소의 기여를 밝히기 위한 제거 연구를 제공한다.
제안 방법
- 전통적인 자율주행을 텍스트 기반 인터페이스를 갖춘 LLM 유도 에이전트 아키텍처로 변환한다.
- 신경 모듈 출력(탐지, 예측, 점유, 지도)을 텍스트 메시지로 변환하고 동적 함수 호출을 지원하는 도구 라이브러리를 개발한다.
- 일반상식 및 경험 메모리를 포함한 인지 기억을 도입하여 관련 규칙과 과거 시나리오를 2단계 검색(임베딩 기반 K-NN 후 LLM 기반 순위 매김)을 통해 검색한다.
- 사고의 체인 추론, 작업 계획, 모션 계획(텍스트 생성으로서), 그리고 자기 성찰(충돌 확인 및 궤적 정제)을 수행하는 추론 엔진을 활용한다.
- 인간 운전 궤적에 대해 모션 플래닝 LLM을 미세 조정하고 추론 및 계획 모듈에 대해 컨텍스트 학습을 사용하며; 텍스트 궤적을 실행을 위한 물리적 궤적으로 다시 변환한다.
실험 결과
연구 질문
- RQ1LLM 기반 인지 에이전트가 인간의 선험 지식과 경험적 지식을 자율주행 의사결정에 어떻게 통합할 수 있는가?
- RQ2도구 라이브러리와 기억 기반 추론 접근법이 전통적인 파이프라인에 비해 안전성, 계획 정확도 및 해석 가능성을 향상시키는가?
- RQ3Agent-Driver가 강한 few-shot 학습 성능을 달성하고 서로 다른 신경 모듈과 LLM들 간의 안정성을 유지할 수 있는가?
- RQ4제거 실험이 시스템의 모션 계획 성능과 충돌률에 미치는 영향은 무엇인가?
- RQ52단계 기억 검색(임베딩 + LLM 순위 매김)이 의사결정 품질에 어떻게 기여하는가?
주요 결과
- Agent-Driver는 nuScenes에서 최첨단 방법들과 비교할 때 L2 오차와 충돌률 양쪽 모두에서 모션 플래닝 성능을 크게 향상시킨다.
- ST-P3 지표에서 Agent-Driver는 최저 평균 L2 오차를 달성하고 평균 충돌을 두 번째로 좋은 방법 대비 상당히 감소시킨다(약 35.7% 감소).
- UniAD 지표에서 Agent-Driver는 L2 0.74 m 및 충돌률 0.21%에 도달하여 두 번째로 좋은 방법들보다 상당한 차이로 우수성을 보이며(약 11.9% L2 개선 및 32.3% 충돌 개선).
- 시스템은 강력한 few-shot 학습을 보이며, 0.1% 학습 데이터로도 경쟁력 있는 성능을 보이고 1% 데이터가 충돌률 면에서 전체 데이터 기준을 능가한다.
- 제거 연구는 모든 구성요소(도구 라이브러리, 일반상식 메모리, 경험 메모리, 추론, 작업 계획, 그리고 자기 성찰)가 성능에 기여하며, 특히 자기 성찰이 충돌률을 크게 줄이는 것으로 나타났다.
- Agent-Driver는 서로 다른 신경 모듈 및 LLM과의 호환성을 유지하고, 제한된 학습 데이터에서도 높은 출력 안정성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.