[论文解读] Safe Multi-Agent Reinforcement Learning via Shielding
本文提出集中式与分解式屏蔽方法,在多智能体强化学习中强制执行由 LTL 指定的安全性,展示了在基准测试中的安全性保证和可扩展的性能,同时保持学习质量。
Multi-agent reinforcement learning (MARL) has been increasingly used in a wide range of safety-critical applications, which require guaranteed safety (e.g., no unsafe states are ever visited) during the learning process.Unfortunately, current MARL methods do not have safety guarantees. Therefore, we present two shielding approaches for safe MARL. In centralized shielding, we synthesize a single shield to monitor all agents' joint actions and correct any unsafe action if necessary. In factored shielding, we synthesize multiple shields based on a factorization of the joint state space observed by all agents; the set of shields monitors agents concurrently and each shield is only responsible for a subset of agents at each step.Experimental results show that both approaches can guarantee the safety of agents during learning without compromising the quality of learned policies; moreover, factored shielding is more scalable in the number of agents than centralized shielding.
研究动机与目标
- 解决在探索过程中可能访问到不安全状态的 MARL 安全问题。
- 引入屏蔽框架,在学习过程中保证安全性,同时不破坏策略质量。
- 开发集中式屏蔽和可扩展的分解式屏蔽,以监控并纠正联合智能体动作。
提出的方法
- 通过求解将粗糙环境抽象 DFA 与用 LTL 表达的安全规范 DFA 结合的双人安全博弈,合成一个以 Mealy 机形式的集中式屏蔽。
- 通过仅在必要时纠正不安全的联合行动、尽可能少地改变某些智能体的行动,来确保干预最小化。
- 提出一种可扩展的分解式屏蔽方法,将联合状态空间划分并对智能体子集进行联合监控,允许智能体动态加入或离开屏蔽。
- 协调多个屏蔽以解决冲突并在每一步为所有智能体输出一致的安全输出。
- 通过 Slugs 工具求解双人安全博弈来演示屏蔽合成,在 MARL 学习过程中触发屏蔽。
实验结果
研究问题
- RQ1当智能体通过探索学习时,屏蔽是否能够提供可证明的 MARL 安全保障?
- RQ2就可扩展性和对学习性能的影响而言,集中式屏蔽和分解式屏蔽有何比较?
- RQ3屏蔽是否能够在不改变学习动态的前提下,与不同的 MARL 算法集成?
- RQ4屏蔽协调如何影响多智能体环境中的安全性和策略质量?
主要发现
- 集中式和分解式屏蔽都能在 MARL 学习过程中保证安全。
- 分解式屏蔽在智能体数量增加时的扩展性优于集中式屏蔽。
- 屏蔽与多种 MARL 算法(CQ-learning 和 MADDPG)兼容,并不依赖于特定学习器。
- 屏蔽合成使用适度的环境抽象,且在实际时间内完成(例如在实验中屏蔽在两分钟内合成)。
- 经验结果表明,通过移除会破坏学习的不安全动作,屏蔽在某些情况下可以保持甚至提升学习质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。