QUICK REVIEW

[论文解读] Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward

Guannan Qu, Yiheng Lin|arXiv (Cornell University)|Jun 11, 2020

Reinforcement Learning in Robotics参考文献 37被引用 23

一句话总结

本文提出了一种可扩展的演员-评论家（SAC）方法，用于具有平均奖励的网络化系统中的多智能体强化学习，通过利用局部交互和指数衰减特性实现可处理的学习。证明了在相互作用强度有界的情况下，远处智能体的影响呈指数衰减，从而实现一种与局部邻域大小成比例的两时间尺度演员-评论家算法，该算法可实现对平稳点的 $O(\rho^{\kappa+1})$-近似。

ABSTRACT

It has long been recognized that multi-agent reinforcement learning (MARL) faces significant scalability issues due to the fact that the size of the state and action spaces are exponentially large in the number of agents. In this paper, we identify a rich class of networked MARL problems where the model exhibits a local dependence structure that allows it to be solved in a scalable manner. Specifically, we propose a Scalable Actor-Critic (SAC) method that can learn a near optimal localized policy for optimizing the average reward with complexity scaling with the state-action space size of local neighborhoods, as opposed to the entire network. Our result centers around identifying and exploiting an exponential decay property that ensures the effect of agents on each other decays exponentially fast in their graph distance.

研究动机与目标

解决由于全局状态空间和动作空间呈指数级增长而带来的多智能体强化学习（MARL）可扩展性挑战。
在通信和排队网络等网络化系统中，实现具有平均奖励目标的高效学习，此类目标更为自然。
通过识别智能体影响随图距离呈指数衰减的条件，为平均奖励MARL建立可证明的可扩展性。
设计一种两时间尺度演员-评论家算法，仅依赖于局部邻域大小进行学习，实现局部策略的可扩展学习。
在无线多址通信协议设计场景中，验证该方法的有效性。

提出的方法

提出一种可扩展的演员-评论家（SAC）方法，通过利用网络化系统中的局部交互来学习局部策略。
利用一种指数衰减特性，表明在相互作用强度有界时，智能体的影响随图距离呈指数衰减。
采用两时间尺度演员-评论家框架来优化平均奖励目标，其中策略和价值函数更新使用不同的学习率。
应用一种新颖的MDP扰动结果，证明局部状态变化对远处智能体状态分布的影响逐渐减弱。
设计一种策略参数化方法，使得每个智能体的动作仅依赖于其局部状态和邻近智能体，从而确保可扩展性。
采用局部价值函数近似方法，使得每个智能体的Q值仅依赖于其局部状态-动作对和邻近智能体的动作。

实验结果

研究问题

RQ1在平均奖励MARL设置中，尽管存在最坏情况下的不可计算性，是否仍可建立智能体影响的指数衰减？
RQ2指数衰减的存在是否能实现仅与局部邻域大小成比例的计算复杂度，从而实现平均奖励MARL中的可扩展学习？
RQ3两时间尺度演员-评论家算法是否能在平均奖励目标下实现接近最优的局部策略？
RQ4在真实网络化系统中，该方法与基线协议相比表现如何？
RQ5对相互作用强度的何种条件可确保在平均奖励MARL中指数衰减特性的有效性？

主要发现

本文证明了在相互作用强度有界时，即使在平均奖励设置下，智能体之间的相互影响也随图距离呈指数衰减。
所提出的可扩展演员-评论家（SAC）方法可实现对平均奖励目标函数平稳点的 $O(\rho^{\kappa+1})$-近似。
该算法的计算复杂度仅随最大 $\kappa$-跳邻域的大小增长，而非全局状态-动作空间，从而实现可扩展性。
在5×5无线网络中的数值实验表明，SAC方法即使在无法获取传输概率的情况下，也优于基于ALOHA的基准协议。
在随机生成的问题实例中，指数衰减特性以高概率成立，验证了该方法的鲁棒性。
新颖的MDP扰动结果表明，在有界条件下，局部状态变化对远处智能体状态分布的影响逐渐减弱，为指数衰减特性提供了理论基础。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。