QUICK REVIEW

[论文解读] MAMPS: Safe Multi-Agent Reinforcement Learning via Model Predictive Shielding

Wenbo Zhang, Osbert Bastani|arXiv (Cornell University)|Oct 25, 2019

Reinforcement Learning in Robotics参考文献 24被引用 24

一句话总结

MAMPS 是一种新颖的算法，通过在需要时动态切换单个智能体至安全备份策略，利用在线模型预测屏蔽（model predictive shielding）来确保多智能体强化学习中的安全性。该方法在保持高性能的同时保证了安全性，在多智能体设置中相比朴素的单智能体屏蔽方法性能提升高达一个数量级。

ABSTRACT

Reinforcement learning is a promising approach to learning control policies for performing complex multi-agent robotics tasks. However, a policy learned in simulation often fails to guarantee even simple safety properties such as obstacle avoidance. To ensure safety, we propose multi-agent model predictive shielding (MAMPS), an algorithm that provably guarantees safety for an arbitrary learned policy. In particular, it operates by using the learned policy as often as possible, but instead uses a backup policy in cases where it cannot guarantee the safety of the learned policy. Using a multi-agent simulation environment, we show how MAMPS can achieve good performance while ensuring safety.

研究动机与目标

为在复杂、动态环境中确保学习到的多智能体强化学习策略的安全性，解决关键挑战。
克服现有屏蔽方法将多智能体系统视为单智能体系统所导致的可扩展性与次优性问题。
开发一种方法，在最小化性能下降的前提下，仅对处于风险中的智能体选择性地应用备份策略，从而保证安全性。
提供理论保证：当系统从可恢复状态开始时，屏蔽策略在无限时间范围内维持安全性。
在具有不同智能体数量的多智能体仿真环境中，通过实证验证 MAMPS 相较于朴素屏蔽方法的性能表现。

提出的方法

MAMPS 使用模型预测屏蔽框架，分别独立评估每个智能体在应用学习策略后下一状态的安全性。
仅当某智能体的动作可能导致不可恢复状态时，才逐步将其从学习策略切换至安全备份策略，依据为可恢复性检查。
该算法维护一个当前策略向量 π_b，其中包含每个智能体的学习策略与备份策略的组合，并检查应用 π_b 是否会导致可恢复的下一状态。
可恢复性通过在有限时域内模拟闭环动态行为，结合备份策略来验证安全性与稳定性。
通过迭代测试策略组合，逐步识别出跨智能体的安全策略配置，直至找到一个安全的策略向量 π_b。
仅在内部仿真中确认安全性后，才在真实环境中执行 π_b 的动作，从而在不牺牲性能的前提下确保安全性。

实验结果

研究问题

RQ1能否为多智能体系统设计一种屏蔽机制，避免将整个系统视为单个智能体所带来的性能下降？
RQ2在线、智能体特定的屏蔽是否比预计算或全局屏蔽提供更强的安全保证？
RQ3MAMPS 在多智能体环境中在确保安全性的前提下，能在多大程度上保持学习策略的性能？
RQ4与将备份策略应用于所有智能体的朴素屏蔽方法相比，MAMPS 在性能上表现如何？
RQ5MAMPS 是否能保证从可恢复状态开始的多智能体系统在无限时间范围内的安全性？

主要发现

在 3 个智能体设置中，MAMPS 实现了接近最优的性能，MADDPG+MAMPS 的性能非常接近于单独使用 MADDPG 的结果。
在 4 个智能体设置中，由于碰撞增加导致性能下降，但 MAMPS 仍能确保安全性，而朴素方法则失败。
在任务成功率和累积回报方面，MAMPS 相较于朴素屏蔽方法性能提升高达一个数量级。
理论分析证明：若系统从可恢复状态开始，MAMPS 可确保在无限时间范围内的安全性。
该算法保证会终止并返回一个安全动作，因为当备份策略应用于所有智能体时，始终能确保可恢复性。
与朴素屏蔽相比，该方法通过避免对所有智能体无差别地使用备份策略，展现出更好的可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。