QUICK REVIEW

[论文解读] Linear-Quadratic Mean-Field Reinforcement Learning: Convergence of Policy Gradient Methods

René Carmona, Mathieu Laurière|arXiv (Cornell University)|Oct 9, 2019

Reinforcement Learning in Robotics参考文献 24被引用 34

一句话总结

论文证明了带有公共噪声的线性-二次均场控制问题的精确策略梯度和模型无关策略梯度方法的全局收敛，并且表明智能体可以学习一个社会最优策略，该策略对有限群体近似最优。

ABSTRACT

We investigate reinforcement learning in the setting of Markov decision processes for a large number of exchangeable agents interacting in a mean field manner. Applications include, for example, the control of a large number of robots communicating through a central unit dispatching the optimal policy computed by maximizing an aggregate reward. An approximate solution is obtained by learning the optimal policy of a generic agent interacting with the statistical distribution of the states and actions of the other agents. We first provide a full analysis this discrete-time mean field control problem. We then rigorously prove the convergence of exact and model-free policy gradient methods in a mean-field linear-quadratic setting and establish bounds on the rates of convergence. We also provide graphical evidence of the convergence based on implementations of our algorithms.

研究动机与目标

在离散时间中引入均场强化学习（MFRL），作为对大规模可交换代理群体的学习。
将最优控制表征为状态及其均值的线性形式，便于可解分析以及与有限-N 学习的联系。
证明在带有公共噪声的均场线性二次控制（LQ）设定中，精确和模型无关策略梯度方法的全局收敛。
展示有限数量的代理如何协同学习社会最优控制，该控制在N增大时近似最优。

提出的方法

将均场控制（MFC）问题表述为状态动力学依赖于状态和控制分布（McKean-Vlasov 动力学）且代价为二次的优化问题。
对问题进行参数化，使最优控制在状态及其均值上线性，从而通过两个子问题 C_y(K) 与 C_z(L) 实现解耦优化。
在温和假设下，证明在精确（模型已知）设定中策略梯度的全局收敛，线性收敛速率。
扩展至模型无关设定，使用 MKV 与人口仿真器通过扰动型方法估计策略梯度。
提供两种梯度估计方案：(i) 基于 MKV 的梯度估计器，具有精确的 MKV 动力学；(ii) 使用有限-N 仿真的基于人口的估计器，在合适的采样参数下均保证收敛。

实验结果

研究问题

RQ1带有公共噪声的线性-二次均场控制问题，策略梯度方法是否能够全局收敛？
RQ2如何设计能够收敛到最优均场策略的模型无关梯度估计方案（基于 MKV 与基于人口的方案）？
RQ3有限群体在多大程度上能够学习到对均场极限近似最优的策略，以及异质性如何影响这一点？
RQ4公共噪声对学习动态与均场强化学习中的收敛性有何影响？

主要发现

在线性-二次均场控制设置下，精确与模型无关的策略梯度方法全局收敛到均场最优解。
收敛在迭代次数上呈线性，在合适的学习率下达到最优邻域的步数为 O(log(1/ε))。
最优的均场策略在状态及其均值上呈线性，这一结构在有限-N 代理中产生近似最优策略，且当 N→∞ 和群体异质性减小时近似误差消失。
使用 MKV 仿真器，即使在模型未知时，基于扰动的梯度估计与学习也可得到可证明的收敛性（模型无关）。
仅有人口仿真器时，对于较大的 N，仍能收敛到近似最优的社会成本，偏差随群体规模增大和异质性减小而消失。
数值实验（折扣因子 γ = 0.9）表明鲁棒性：单个智能体可以学习最优控制的第二分量，但无法学习第一分量，因为在 N=1 时 x^1 − x̄^N 为零；较大 N 能提升学习性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。