Skip to main content
QUICK REVIEW

[論文レビュー] Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates

Guangchen Lan, Han Wang|arXiv (Cornell University)|Oct 9, 2023
Reinforcement Learning in Robotics被引用数 10
ひとこと要約

FedNPG-ADMM は、全球 NPG 方向を推定するために ADMM を用いることで、フェデレーテッド自然政策勾配の通信コストをイテレーションあたり O(d^2) から O(d) に削減し、標準的な FedNPG と同じ収束速度を維持します。

ABSTRACT

Federated reinforcement learning (FedRL) enables agents to collaboratively train a global policy without sharing their individual data. However, high communication overhead remains a critical bottleneck, particularly for natural policy gradient (NPG) methods, which are second-order. To address this issue, we propose the FedNPG-ADMM framework, which leverages the alternating direction method of multipliers (ADMM) to approximate global NPG directions efficiently. We theoretically demonstrate that using ADMM-based gradient updates reduces communication complexity from ${O}({d^{2}})$ to ${O}({d})$ at each iteration, where $d$ is the number of model parameters. Furthermore, we show that achieving an $ε$-error stationary convergence requires ${O}(\frac{1}{(1-γ)^{2}ε})$ iterations for discount factor $γ$, demonstrating that FedNPG-ADMM maintains the same convergence rate as the standard FedNPG. Through evaluation of the proposed algorithms in MuJoCo environments, we demonstrate that FedNPG-ADMM maintains the reward performance of standard FedNPG, and that its convergence rate improves when the number of federated agents increases.

研究の動機と目的

  • 限られた通信とプライバシー制約の下で方策最適化のためのフェデレーテッド強化学習を動機づける。
  • 性能を犠牲にすることなく通信オーバーヘッドを削減する二次オーダーの FedRL 手法を開発する。
  • 分散設定でグローバル NPG 方向を推定するための ADMM ベースの手法を提案する。
  • 標準的な FedNPG と同じ収束速度を示す収束保証を提供する。
  • MuJoCo 環境での経験的性能と通信上の利点を示す。

提案手法

  • グローバル方向の計算を、解が (sum_i H_i)^{-1} sum_i g_i に等しくなる二次問題として定式化する。
  • 低次元変数 (y_i) と勾配 g_i のみを交換する分散 ADMM フレームワークへ問題を変換する。
  • 各エージェントが (H_i + rho I)^{-1} を用いて y_i を更新し、サーバが y_i を平均して y を形成し theta を更新する FedNPG-ADMM アルゴリズム1 を導出する。
  • 標準の FedNPG では O(d^2) である各イテレーションのアップリンク通信複雑度が、O(d) になることを示す。
  • 収束を証明する: FedNPG-ADMM は ε-停留点収束を O(1/((1-γ)^2 ε)) イテレーションで達成し、FedNPG に一致する。
  • MuJoCo タスクでのシミュレーションによって、FedNPG-ADMM を FedNPG および FedPPO と比較して理論結果を補強する。
Figure 1: An illustration of federated learning based on second-order methods with $N$ agents. (a) FedNPG via standard average. In the uplink, transmitting the matrix $\mathbf{H}_{i}$ brings $\mathcal{O}(d^{2})$ communication complexity. (b) FedNPG-ADMM in this paper with only $\mathcal{O}(d)$ commu
Figure 1: An illustration of federated learning based on second-order methods with $N$ agents. (a) FedNPG via standard average. In the uplink, transmitting the matrix $\mathbf{H}_{i}$ brings $\mathcal{O}(d^{2})$ communication complexity. (b) FedNPG-ADMM in this paper with only $\mathcal{O}(d)$ commu

実験結果

リサーチクエスチョン

  • RQ1ADMM ベースの勾配更新は、収束を損なうことなくフェデレーテッド二次オーダー方策勾配法の通信複雑さを削減できるのか。
  • RQ2FedNPG-ADMM は標準の FedNPG の ε-停留点収束速度とサンプル複雑度を維持するのか。
  • RQ3フェデレーテッドエージェントの数が増減した場合、収束と報酬の観点で FedNPG-ADMM はどうスケールするのか。
  • RQ4通信削減が報酬性能と部分的なエージェント参加に対するロバスト性に与える実証的影響は何か。

主な発見

  • ADMM ベースの更新により、アップリンク通信をイテレーションごとに O(d^2) から O(d) に削減。
  • FedNPG-ADMM は標準の FedNPG と同じ ε-stationary 収束速度を達成し、反復複雑度は K = O(1/((1-γ)^2 ε))。
  • MuJoCo での実証結果は、FedNPG-ADMM がタスク全体で FedNPG に匹敵する報酬性能を維持することを示す。
  • フェデレーテッドエージェント数の増加は FedNPG-ADMM の収束速度を改善し、理論的利点に一致する。
  • FedNPG-ADMM は Swimmer-v4 および Humanoid-v4 タスクにおいて、性能を維持しつつ通信を大幅に削減(数桁に及ぶ)する。
(a) FedNPG (Swimmer-v4)
(a) FedNPG (Swimmer-v4)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。