Skip to main content
QUICK REVIEW

[論文レビュー] Linear-Quadratic Mean-Field Reinforcement Learning: Convergence of Policy Gradient Methods

René Carmona, Mathieu Laurière|arXiv (Cornell University)|Oct 9, 2019
Reinforcement Learning in Robotics参考文献 24被引用数 34
ひとこと要約

本論文は、共通ノイズを有する線形二次平均場制御問題に対して、正確法とモデルフリーのポリシー勾配法のグローバル収束を証明し、有限集団に対してほぼ最適となる社会的最適方策をエージェントが学習できることを示す。

ABSTRACT

We investigate reinforcement learning in the setting of Markov decision processes for a large number of exchangeable agents interacting in a mean field manner. Applications include, for example, the control of a large number of robots communicating through a central unit dispatching the optimal policy computed by maximizing an aggregate reward. An approximate solution is obtained by learning the optimal policy of a generic agent interacting with the statistical distribution of the states and actions of the other agents. We first provide a full analysis this discrete-time mean field control problem. We then rigorously prove the convergence of exact and model-free policy gradient methods in a mean-field linear-quadratic setting and establish bounds on the rates of convergence. We also provide graphical evidence of the convergence based on implementations of our algorithms.

研究の動機と目的

  • 離散時間における平均場強化学習(MFRL)を、交換可能な多数のエージェント集団の学習として導入する。
  • 最適制御を状態と平均の線形性として特徴付け、分析を実現し、有限N学習との関連を可能にする。
  • 共通ノイズを持つ平均場LQ設定において、正確法およびモデルフリーのポリシー勾配法のグローバル収束を証明する。
  • 有限個のエージェントが協働して社会的最適制御を学習し、Nが大きくなるにつれてほぼ最適となることを示す。

提案手法

  • 状態の分布(状態と制御の分布)に依存する動的を持つ平均場制御問題(McKean-Vlasov動力学)と二次コストを設定する。
  • 最適制御が状態とその平均の線形になるように問題を再パラメータ化し、C_y(K)とC_z(L)の二つのブロックによるデカップリング最適化を実現する。
  • 穏やかな仮定の下で、正確な(モデル既知)設定におけるポリシー勾配のグローバル収束を証明し、線形収束率を持つ。
  • MKVと人口シミュレータを用いて、摂動ベースの手法でポリシー勾配を推定するモデルフリー設定へ拡張する。
  • 勾配推定スキームを二つ提供する: (i) 正確なMKV動力学を用いたMKVベースの勾配推定子と (ii) 有限Nシミュレーションを用いた人口ベースの推定子で、いずれも適切なサンプリングパラメータの下で収束を保証する。

実験結果

リサーチクエスチョン

  • RQ1共通ノイズを持つ線形二次平均場制御問題に対して、ポリシー勾配法はグローバルに収束できるか?
  • RQ2最適な平均場方策へ収束するようなモデルフリー勾配推定スキーム(MKVベースおよび人口ベース)をどのように設計できるか?
  • RQ3有限集団が平均場極限に対してほぼ最適となる方策をどの程度学習するのか、そして異質性がこれにどう影響するか?
  • RQ4平均場強化学習における学習ダイナミクスと収束に対する共通ノイズの影響は何か?

主な発見

  • 正確法およびモデルフリーのポリシー勾配法は、LQ平均場制御設定において平均場最適解へグローバル収束する。
  • 収束は反復回数に対して線形で、適切な学習率の下で最適性のε近傍へ到達するにはO(log(1/ε))ステップを要する。
  • 最適な平均場方策は状態とその平均に対して線形であり、この構造は有限Nエージェントに対してほぼ最適な方策を生み出し、近似誤差はN→∞で消失し、集団の異質性が小さくなるほど小さくなる。
  • MKVシミュレータを用いると、モデルが未知でも勾配推定と学習を証明付きで進められる(モデルフリー)。
  • 人口シミュレータのみが利用可能な場合、大規模Nに対して社会的コストのほぼ最適化へ収束が維持され、母集団サイズの増大と異質性の低下に伴って偏りの制御が消失する。
  • 数値実験(割引因子γ=0.9)は頑健性を示す:単一エージェントは最適制御の第二成分を学べるが、N=1のとき x^1 − x̄^N がゼロとなるため第一成分を学べない;Nを大きくすると学習性能が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。