[论文解读] SurrealDriver: Designing LLM-powered Generative Driver Agent Framework based on Human Drivers' Driving-thinking Data
SurrealDriver 提出一个基于大模型的城市驾驶代理框架,具备记忆与安全模块,从对真实驾驶员的访谈中学习,以提升 CARLA 基础仿真中的人类相似性与安全性。完整框架显示出显著的安全提升和人类行为的改进。
Leveraging advanced reasoning capabilities and extensive world knowledge of large language models (LLMs) to construct generative agents for solving complex real-world problems is a major trend. However, LLMs inherently lack embodiment as humans, resulting in suboptimal performance in many embodied decision-making tasks. In this paper, we introduce a framework for building human-like generative driving agents using post-driving self-report driving-thinking data from human drivers as both demonstration and feedback. To capture high-quality, natural language data from drivers, we conducted urban driving experiments, recording drivers' verbalized thoughts under various conditions to serve as chain-of-thought prompts and demonstration examples for the LLM-Agent. The framework's effectiveness was evaluated through simulations and human assessments. Results indicate that incorporating expert demonstration data significantly reduced collision rates by 81.04\% and increased human likeness by 50\% compared to a baseline LLM-based agent. Our study provides insights into using natural language-based human demonstration data for embodied tasks. The driving-thinking dataset is available at \url{https://github.com/AIR-DISCOVER/Driving-Thinking-Dataset}.
研究动机与目标
- 在 CARLA 中证明基于规则和数据驱动的代理之外的现实主义城市司机仿真的需求。
- 提出一个面向城市场景的感知、决策、控制模块的基于LLM的驾驶代理框架。
- 结合短期记忆、长期驾驶指南,以及安全标准,以与人类驾驶行为保持一致。
- 利用人类驾驶员访谈数据构建一个 CoachAgent,引导 DriverAgent 形成更接近人类的驾驶风格。
- 通过消融和用户研究实证验证安全性、连续性和人类相似性。
提出的方法
- 将驾驶场景分解为基本感知与动作原语,供LLM理解。
- 使用三模块记忆系统:安全标准、短期记忆、以及长期驾驶指南(CoachAgent)。
- 在 CARLA 环境下实现具有基本感知-决策-控制管线的 DriverAgent。
- 通过对 24 位真实驾驶员的访谈开发 CoachAgent,以提供长期驾驶指南。
- 进行消融实验以评估各记忆/安全模块对安全性与连续性的影响。
- 通过包含 24 名参与者的用户研究进行人类相似性评估。
实验结果
研究问题
- RQ1在城市驾驶仿真中,加入安全标准如何影响碰撞率?
- RQ2短期记忆对驾驶连续性与复杂性有何影响?
- RQ3长期指南是否随时间提升驾驶熟练度与安全性?
- RQ4与基线相比,完整的 SurrealDriver 框架在何种程度上会呈现人类般的驾驶行为?
主要发现
| 框架变体 | 按距离的碰撞率(每米) | 按时间的碰撞率(每秒) |
|---|---|---|
| 无 安全标准、无 短期记忆、无 长期指南 | 0.01453958 | 0.041315485 |
| 有 安全标准,无 短期记忆,无 长期指南 | 0.00923361 | 0.02366976 |
| 有 安全标准,有 短期记忆,无 长期指南 | 0.005046864 | 0.009530682 |
| 完整框架 | 0.002757353 | 0.005100011 |
- 包含安全标准的框架将碰撞率相比于无安全标准的框架降低了 57.46%。
- 包含短期记忆的框架将碰撞率相比于无短期记忆的框架降低了 82.96%。
- 包含长期指南的框架将碰撞率相比于无长期指南的框架降低了 83.03%。
- 在用户研究中,完整架构达到最高的人类相似性,比基本框架提升了 50%。
- 消融结果表明,安全、记忆与引导模块共同提升了安全性、连续性与任务完成度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。