QUICK REVIEW

[논문 리뷰] A Language Agent for Autonomous Driving

Jiageng Mao, Junjie Ye|arXiv (Cornell University)|2023. 11. 17.

Multimodal Machine Learning Applications인용 수 14

한 줄 요약

Agent-Driver는 대형 언어 모델을 자율주행 에이전트로 활용하며 도구 라이브러리, 인지 기억, 추론 엔진을 도입해 해석 가능성과 few-shot 학습 측면에서 nuScenes에서 최첨단 방법을 능가한다.

ABSTRACT

Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods.

연구 동기 및 목표

인간의 선험 지식과 추론 능력을 활용하여 지각-예측-계획에서 LLM 주도 에이전트 패러다임으로의 전환을 촉진한다.
도구 라이브러리, 인지 기억, 그리고 추론 엔진을 통한 언어 기반 인터페이스로 신경 모듈을 통합하는 모듈식 아키텍처를 도입한다.
대규모 주행 벤치마크에서 LLM 구동 추론이 계획 품질, 안전성, 해석 가능성을 향상시킬 수 있음을 입증한다.
few-shot 학습 능력과 모듈 대체 및 서로 다른 LLM에 대한 강건성을 선보인다.
각 구조 구성요소의 기여를 밝히기 위한 제거 연구를 제공한다.

제안 방법

전통적인 자율주행을 텍스트 기반 인터페이스를 갖춘 LLM 유도 에이전트 아키텍처로 변환한다.
신경 모듈 출력(탐지, 예측, 점유, 지도)을 텍스트 메시지로 변환하고 동적 함수 호출을 지원하는 도구 라이브러리를 개발한다.
일반상식 및 경험 메모리를 포함한 인지 기억을 도입하여 관련 규칙과 과거 시나리오를 2단계 검색(임베딩 기반 K-NN 후 LLM 기반 순위 매김)을 통해 검색한다.
사고의 체인 추론, 작업 계획, 모션 계획(텍스트 생성으로서), 그리고 자기 성찰(충돌 확인 및 궤적 정제)을 수행하는 추론 엔진을 활용한다.
인간 운전 궤적에 대해 모션 플래닝 LLM을 미세 조정하고 추론 및 계획 모듈에 대해 컨텍스트 학습을 사용하며; 텍스트 궤적을 실행을 위한 물리적 궤적으로 다시 변환한다.

실험 결과

연구 질문

RQ1LLM 기반 인지 에이전트가 인간의 선험 지식과 경험적 지식을 자율주행 의사결정에 어떻게 통합할 수 있는가?
RQ2도구 라이브러리와 기억 기반 추론 접근법이 전통적인 파이프라인에 비해 안전성, 계획 정확도 및 해석 가능성을 향상시키는가?
RQ3Agent-Driver가 강한 few-shot 학습 성능을 달성하고 서로 다른 신경 모듈과 LLM들 간의 안정성을 유지할 수 있는가?
RQ4제거 실험이 시스템의 모션 계획 성능과 충돌률에 미치는 영향은 무엇인가?
RQ52단계 기억 검색(임베딩 + LLM 순위 매김)이 의사결정 품질에 어떻게 기여하는가?

주요 결과

Agent-Driver는 nuScenes에서 최첨단 방법들과 비교할 때 L2 오차와 충돌률 양쪽 모두에서 모션 플래닝 성능을 크게 향상시킨다.
ST-P3 지표에서 Agent-Driver는 최저 평균 L2 오차를 달성하고 평균 충돌을 두 번째로 좋은 방법 대비 상당히 감소시킨다(약 35.7% 감소).
UniAD 지표에서 Agent-Driver는 L2 0.74 m 및 충돌률 0.21%에 도달하여 두 번째로 좋은 방법들보다 상당한 차이로 우수성을 보이며(약 11.9% L2 개선 및 32.3% 충돌 개선).
시스템은 강력한 few-shot 학습을 보이며, 0.1% 학습 데이터로도 경쟁력 있는 성능을 보이고 1% 데이터가 충돌률 면에서 전체 데이터 기준을 능가한다.
제거 연구는 모든 구성요소(도구 라이브러리, 일반상식 메모리, 경험 메모리, 추론, 작업 계획, 그리고 자기 성찰)가 성능에 기여하며, 특히 자기 성찰이 충돌률을 크게 줄이는 것으로 나타났다.
Agent-Driver는 서로 다른 신경 모듈 및 LLM과의 호환성을 유지하고, 제한된 학습 데이터에서도 높은 출력 안정성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.