[论文解读] Robust Multi-Agent Reinforcement Learning with State Uncertainty
本论文在带状态扰动对手的马克ov博弈中定义鲁棒均衡,证明鲁棒均衡的存在性,并提出具有收敛性保证的 RMAQ 与 RMAAC 算法以在状态不确定性下进行 MARL。
In real-world multi-agent reinforcement learning (MARL) applications, agents may not have perfect state information (e.g., due to inaccurate measurement or malicious attacks), which challenges the robustness of agents' policies. Though robustness is getting important in MARL deployment, little prior work has studied state uncertainties in MARL, neither in problem formulation nor algorithm design. Motivated by this robustness issue and the lack of corresponding studies, we study the problem of MARL with state uncertainty in this work. We provide the first attempt to the theoretical and empirical analysis of this challenging problem. We first model the problem as a Markov Game with state perturbation adversaries (MG-SPA) by introducing a set of state perturbation adversaries into a Markov Game. We then introduce robust equilibrium (RE) as the solution concept of an MG-SPA. We conduct a fundamental analysis regarding MG-SPA such as giving conditions under which such a robust equilibrium exists. Then we propose a robust multi-agent Q-learning (RMAQ) algorithm to find such an equilibrium, with convergence guarantees. To handle high-dimensional state-action space, we design a robust multi-agent actor-critic (RMAAC) algorithm based on an analytical expression of the policy gradient derived in the paper. Our experiments show that the proposed RMAQ algorithm converges to the optimal value function; our RMAAC algorithm outperforms several MARL and robust MARL methods in multiple multi-agent environments when state uncertainty is present. The source code is public on \url{https://github.com/sihongho/robust_marl_with_state_uncertainty}.
研究动机与目标
- 在代理因错误或攻击而导致的状态信息不完美时,推动 MARL 的鲁棒性研究。
- 将带最坏情况状态扰动的 MARL 表述为带状态扰动对手的马尔可夫博弈(MG-SPA)。
- 将鲁棒均衡(RE)定义为解的概念并研究其存在性与性质。
- 开发具有收敛性保证的学习算法(RMAQ 与 RMAAC)以寻求 RE。
- 在状态扰动的多智能体环境中,通过实验证明鲁棒性和有效性。
提出的方法
- 通过将每个智能体配对一个状态扰动对手以及一个将真实状态映射到扰动状态的扰动函数 f 来引入 MG-SPA。
- 在策略和对手下定义价值函数 v 与 q,并建立 MG-SPA 的 Bellman 方程。
- 将鲁棒均衡(RE)定义为类 Nash 均衡的解,其中智能体对抗对手和其他智能体进行优化。
- 证明极小极大算子的压缩性质以及函数空间的完备性,从而确保最优价值函数的存在性/唯一性。
- 通过构造与 MG-SPA 相关的扩展博弈并应用不动点论证,显示 RE 的存在性。
- 给出具有收敛保证的鲁棒 Q 学习(RMAQ)以及在高维空间中的鲁棒 Actor-Critic(RMAAC)。
实验结果
研究问题
- RQ1在带状态扰动对手的马尔可夫博弈(MG-SPA)中,存在鲁棒均衡的条件是什么?
- RQ2当每个智能体面临最坏状态扰动时,如何计算鲁棒策略以实现 MARL?
- RQ3是否存在对 MG-SPA 的收敛学习算法?它们与在状态不确定性下的基线算法相比有何表现?
- RQ4在 MG-SPA 中引入历史策略对鲁棒均衡有何影响?
- RQ5在保持理论保证的前提下,是否可以并入异质扰动(不同的 f 和 epsilon)?
主要发现
- 在给定假设下,MG-SPA 具有鲁棒均衡,且最优价值函数存在且唯一。
- 极小极大 Bellman 方程刻画了鲁棒最优解与 RE 策略。
- RMAQ 能在 MG-SPA 设置下收敛到最优价值函数。
- RMAAC 能有效处理高维状态-动作空间,在状态扰动下实验中优于基线方法。
- 该框架可推广至异质智能体/对手及历史相关策略,且保持理论保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。