[论文解读] Finite-Time Analysis of Distributed TD(0) with Linear Function Approximation for Multi-Agent Reinforcement Learning
本文分析在多智能体设置中的分布式 TD(0) 算法,使用线性函数近似,证明随时间变化的通信图下的有限时间收敛率。它推导出依赖于网络拓扑和折扣因子的显式界限。
We study the policy evaluation problem in multi-agent reinforcement learning. In this problem, a group of agents works cooperatively to evaluate the value function for the global discounted accumulative reward problem, which is composed of local rewards observed by the agents. Over a series of time steps, the agents act, get rewarded, update their local estimate of the value function, then communicate with their neighbors. The local update at each agent can be interpreted as a distributed consensus-based variant of the popular temporal difference learning algorithm TD(0). While distributed reinforcement learning algorithms have been presented in the literature, almost nothing is known about their convergence rate. Our main contribution is providing a finite-time analysis for the convergence of the distributed TD(0) algorithm. We do this when the communication network between the agents is time-varying in general. We obtain an explicit upper bound on the rate of convergence of this algorithm as a function of the network topology and the discount factor. Our results mirror what we would expect from using distributed stochastic gradient descent for solving convex optimization problems.
研究动机与目标
- 在多智能体强化学习 (MARL) 设置下 motivate-policy evaluation,其中智能体观察局部奖励并协作估计全局值函数。
- 提出一个带线性函数近似和本地更新的分布式基于共识的 TD(0) 算法。
- 在时变通信图下提供分布式 TD(0) 方法的有限时间收敛率。
- 将收敛速率与网络拓扑、折扣因子和步长选择相关联。
- 为理解分布式 TD(0) 的扩展性与分布式 SGD 在凸优化中的表现相似提供基础。
提出的方法
- 提出一个带共识步骤的分布式 TD(0) 更新,每个智能体对邻居的估计进行平均。
- 通过 d_v(k) = r_v(k) + gamma * tilde J(s'(k), theta_v) - tilde J(s(k), theta_v) 将 TD(0) 方向与线性函数近似结合起来。
- 对估计值进行投影到凸集 X,以保持界限。
- 建立矩阵形式分析,使用带连通性假设和二次随机权重的共识矩阵 W(k)。
- 推导有限时间界限,给出常数步长下 O(1/k) 收敛和随步长下降时 O(1/√k) 收敛,以及参数估计 theta 的类似结果。
- 给出两条主要定理,给出在每个智能体处近似值函数的收敛速率,以及对 theta* 的共识平均参数向量的收敛速率。
实验结果
研究问题
- RQ1在 MARL 中,带线性函数近似的分布式 TD(0) 算法能建立哪些有限时间收敛保证?
- RQ2网络拓扑和折扣因子如何影响分布式 TD(0) 的收敛速率?
- RQ3分布式 TD(0) 是否能达到与凸优化中的分布式随机梯度下降相当的速率?
- RQ4步长调度在实现该情形的最优有限时间性能中起到怎样的作用?
主要发现
- 分布式 TD(0) 算法在常数步长下收敛到最优值的邻域,速率为 O(1/k)。
- 使用将步长降至 1/√k 时,值函数估计的收敛速率提升为 O(1/√k)。
- 收敛速率显式地依赖于折扣因子 (1−gamma) 和网络谱隙 (1−delta),将性能与连通性联系起来。
- Theta-v 的估计量收敛到 theta*,速率依赖于 A 的最小特征值 sigma_min 和条件数。
- 结果与分布式 SGD 在凸问题中的直觉一致,将有限时间分析扩展到基于共识的 MARL TD 学习。
- 在某些步长区间内,平均参数向量实现指数级或子线性收敛,取决于收缩因子。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。