Skip to main content
QUICK REVIEW

[論文レビュー] Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis

Guangchen Lan, Dong-Jun Han|arXiv (Cornell University)|Apr 9, 2024
Reinforcement Learning in Robotics被引用数 7
ひとこと要約

この論文は、AFedPGを提案します。RLの非同期フェデレーテッド方策勾配学習フレームワークで、Nエージェントと多様な計算能力の下で線形のサンプル複雑度のスピードアップを達成し、収束保証を提供します。

ABSTRACT

To improve the efficiency of reinforcement learning (RL), we propose a novel asynchronous federated reinforcement learning (FedRL) framework termed AFedPG, which constructs a global model through collaboration among $N$ agents using policy gradient (PG) updates. To address the challenge of lagged policies in asynchronous settings, we design a delay-adaptive lookahead technique extit{specifically for FedRL} that can effectively handle heterogeneous arrival times of policy gradients. We analyze the theoretical global convergence bound of AFedPG, and characterize the advantage of the proposed algorithm in terms of both the sample complexity and time complexity. Specifically, our AFedPG method achieves $O(\frac{ε^{-2.5}}{N})$ sample complexity for global convergence at each agent on average. Compared to the single agent setting with $O(ε^{-2.5})$ sample complexity, it enjoys a linear speedup with respect to the number of agents. Moreover, compared to synchronous FedPG, AFedPG improves the time complexity from $O(\frac{t_{\max}}{N})$ to $O({\sum_{i=1}^{N} \frac{1}{t_{i}}})^{-1}$, where $t_{i}$ denotes the time consumption in each iteration at agent $i$, and $t_{\max}$ is the largest one. The latter complexity $O({\sum_{i=1}^{N} \frac{1}{t_{i}}})^{-1}$ is always smaller than the former one, and this improvement becomes significant in large-scale federated settings with heterogeneous computing powers ($t_{\max}\gg t_{\min}$). Finally, we empirically verify the improved performance of AFedPG in four widely used MuJoCo environments with varying numbers of agents. We also demonstrate the advantages of AFedPG in various computing heterogeneity scenarios.

研究の動機と目的

  • 生データの軌跡を共有せずに、サンプルと時間の複雑性を低減することで、分散デバイス上での効率的な強化学習を促進する。
  • RLの遅延ポリシーとデータストリームに適合した非同期フェデレーテッド方策勾配アルゴリズムを開発する。
  • 理論的な収束保証を提供し、単一エージェントおよび同期フェデレーテッド手法と比較した性能上の利点を定量化する。
  • 異なるエージェント数と計算ヘテロゲニティの下でMuJoCo環境における経験的改善を示す。

提案手法

  • AFedPGを提案する。分散エージェントからの方策勾配更新を用いてグローバルポリシーを更新する非同期FedRLフレームワーク。
  • 非同期設定における遅延ポリシー更新を処理する遅延適応ルックアヘッド手法を導入する。
  • サーバー側で更新を正規化して遅延勾配の影響を緩和する。
  • ルックアヘッドポリシーに従ってローカルサンプルを生成し、正規化された勾配集約で結合する遅延認識の更新規則を用いる。
  • 標準的なRLと方策勾配仮定の下で収束速度を導出するグローバルな収束解析を提供する。
  • 同期FedPGと時間とサンプルの複雑性を比較し、サンプルの線形スピードアップと各エージェントの反復時間の調和平均による時間効率の改善を示す。
Figure 1. An illustration of the asynchronous federated policy gradient updates. Each agent has a local copy of the environment, and agents may collect data according to different local policies. At each iteration, the agent in the yellow color finishes the local process and then communicates with t
Figure 1. An illustration of the asynchronous federated policy gradient updates. Each agent has a local copy of the environment, and agents may collect data according to different local policies. At each iteration, the agent in the yellow color finishes the local process and then communicates with t

実験結果

リサーチクエスチョン

  • RQ1遅延ポリシーに対処しつつ、非同期フェデレーテッド学習を方策勾配強化学習と効果的に統合できるか。
  • RQ2AFedPGの収束保証と複雑性(サンプルと時間)の含意は、単一エージェントPGおよび同期FedPGと比べてどうなるか。
  • RQ3遅延とエージェント計算のヘテロゲネシティが性能に与える影響はどのようなもので、遅延適応ルックアヘッドと勾配正規化でその影響を緩和できるか。
  • RQ4異なるエージェント設定の下で標準RLベンチマークで、サンプル効率と実測時間の実証的な利得はどれくらい得られるか。

主な発見

  • AFedPGは各エージェントのサンプル複雑度をO(ε^-2.5 / N)と達成し、エージェント数に比例した線形スピードアップを示す。
  • 単一エージェントPGと比較して、AFedPGはNエージェントに学習を分散することでサンプル効率を改善する。
  • AFedPGは同期FedPGのO(t_max / N · ε^-2.5)から、O ȳt · ε^-2.5へと全球の時間複雑度を改善する。ここで ȳt は調和平均 1/Σ(1/ti) で、常に t_max / N 以下である。
  • 遅延適応ルックアヘッド手法と正規化更新により、勾配の非同期到着にも安定した収束を実現する。
  • 理論的な収束保証が提供され、反復回数Kと遅延に対する最適性ギャップ J* − E[J(θ_K)] の境界を示す。
  • MuJoCoの3つの環境での実証的評価は、エージェント数と異種の計算能力を変えた場合の性能向上を示す。
Figure 2. Comparison of time consumptions between synchronous and asynchronous approaches. The circled numbers denote the indices of global steps.
Figure 2. Comparison of time consumptions between synchronous and asynchronous approaches. The circled numbers denote the indices of global steps.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。