[论文解读] SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving
SMARTS 是一个开源平台,通过模拟真实且多样化的代理交互,并提供基准、场景和评估指标,来实现用于自动驾驶的可扩展多智能体强化学习(MARL)。
Multi-agent interaction is a fundamental aspect of autonomous driving in the real world. Despite more than a decade of research and development, the problem of how to competently interact with diverse road users in diverse scenarios remains largely unsolved. Learning methods have much to offer towards solving this problem. But they require a realistic multi-agent simulator that generates diverse and competent driving interactions. To meet this need, we develop a dedicated simulation platform called SMARTS (Scalable Multi-Agent RL Training School). SMARTS supports the training, accumulation, and use of diverse behavior models of road users. These are in turn used to create increasingly more realistic and diverse interactions that enable deeper and broader research on multi-agent interaction. In this paper, we describe the design goals of SMARTS, explain its basic architecture and its key features, and illustrate its use through concrete multi-agent experiments on interactive scenarios. We open-source the SMARTS platform and the associated benchmark tasks and evaluation metrics to encourage and empower research on multi-agent learning for autonomous driving. Our code is available at https://github.com/huawei-noah/SMARTS.
研究动机与目标
- 激励在自动驾驶(AD)中实现真实、多样化的多智能体交互的需求。
- 描述 SMARTS 设计目标和架构,以支持在 AD 中实现可扩展的 MARL 研究。
- 介绍社会代理的自举(引导)以及模块化、可扩展的仿真框架。
- 提供面向 MARL 的观测、行动和奖励接口以及基准套件。
- 展示在逐渐具有挑战性的自适应驾驶场景中 MARL 实验的结果。
提出的方法
- 提出基于提供者的、可组合的体系结构,使用 bubble 来管理交互区域并跨社会代理扩展计算。
- 使用领域特定语言(DSL)来组合包含地图、路线、车辆和流的场景,并使用 bubbles 将控制权交给 Social Agent Zoo 代理。
- 与分布式训练框架(Ray、RLlib)和 MARL 库(PyMARL、MAlib)集成,支持 CTDE 与网络化代理学习。
- 支持异质代理(自我代理与社会代理),具备灵活的观测与行动空间、各种控制器以及可配置的奖励信号。
- 提供具备自动驾驶特定指标的基准套件,涵盖性能、行为和博弈论属性。
实验结果
研究问题
- RQ1如何将 MARL 有效地扩展到现实、城市尺度的交通互动,以用于自动驾驶?
- RQ2在多样化场景中,哪些社会代理与学习策略的组合能产生鲁棒、安全吗、高效的多智能体驾驶行为?
- RQ3在复杂的驾驶互动中,不同的 MARL 范式(CTDE、网络化学习)有何比较?
- RQ4SMARTS 是否能够提供具备可重复性、可扩展性的基准套件,并具备有意义的、与 AD 相关的评估指标?
- RQ5场景组成和基于 bubble 的交接对训练效率和策略性能有何影响?
主要发现
- SMARTS 能实现具有多样、真实社会代理和模块化提供者的可扩展多智能体驾驶仿真。
- 可以在 SMARTS 中使用基准套件和自动驾驶特定指标评估包括 CTDE 和网络化变体在内的广泛 MARL 算法。
- 在双向交通、双入口合流及无信号路口等场景的实验显示基线之间的性能与行为差异,凸显在复杂任务中代理间信息共享的好处(例如 MADDPG 在路口表现良好)。
- bubble 机制和 Social Agent Zoo 通过本地化交互区域和分发计算来支持可扩展、定向的训练与评估。
- 该平台与 RLlib 和 MARL 库集成,提供 OpenAI Gym 风格的 API、可视化,以及全面的观测、动作和奖励接口。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。