QUICK REVIEW

[論文レビュー] Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates

Guangchen Lan, Han Wang|arXiv (Cornell University)|Oct 9, 2023

Reinforcement Learning in Robotics被引用数 10

ひとこと要約

FedNPG-ADMM は、全球 NPG 方向を推定するために ADMM を用いることで、フェデレーテッド自然政策勾配の通信コストをイテレーションあたり O(d^2) から O(d) に削減し、標準的な FedNPG と同じ収束速度を維持します。

ABSTRACT

Federated reinforcement learning (FedRL) enables agents to collaboratively train a global policy without sharing their individual data. However, high communication overhead remains a critical bottleneck, particularly for natural policy gradient (NPG) methods, which are second-order. To address this issue, we propose the FedNPG-ADMM framework, which leverages the alternating direction method of multipliers (ADMM) to approximate global NPG directions efficiently. We theoretically demonstrate that using ADMM-based gradient updates reduces communication complexity from ${O}({d^{2}})$ to ${O}({d})$ at each iteration, where $d$ is the number of model parameters. Furthermore, we show that achieving an $ε$-error stationary convergence requires ${O}(\frac{1}{(1-γ)^{2}ε})$ iterations for discount factor $γ$, demonstrating that FedNPG-ADMM maintains the same convergence rate as the standard FedNPG. Through evaluation of the proposed algorithms in MuJoCo environments, we demonstrate that FedNPG-ADMM maintains the reward performance of standard FedNPG, and that its convergence rate improves when the number of federated agents increases.

研究の動機と目的

限られた通信とプライバシー制約の下で方策最適化のためのフェデレーテッド強化学習を動機づける。
性能を犠牲にすることなく通信オーバーヘッドを削減する二次オーダーの FedRL 手法を開発する。
分散設定でグローバル NPG 方向を推定するための ADMM ベースの手法を提案する。
標準的な FedNPG と同じ収束速度を示す収束保証を提供する。
MuJoCo 環境での経験的性能と通信上の利点を示す。

提案手法

グローバル方向の計算を、解が (sum_i H_i)^{-1} sum_i g_i に等しくなる二次問題として定式化する。
低次元変数 (y_i) と勾配 g_i のみを交換する分散 ADMM フレームワークへ問題を変換する。
各エージェントが (H_i + rho I)^{-1} を用いて y_i を更新し、サーバが y_i を平均して y を形成し theta を更新する FedNPG-ADMM アルゴリズム1 を導出する。
標準の FedNPG では O(d^2) である各イテレーションのアップリンク通信複雑度が、O(d) になることを示す。
収束を証明する: FedNPG-ADMM は ε-停留点収束を O(1/((1-γ)^2 ε)) イテレーションで達成し、FedNPG に一致する。
MuJoCo タスクでのシミュレーションによって、FedNPG-ADMM を FedNPG および FedPPO と比較して理論結果を補強する。

Figure 1: An illustration of federated learning based on second-order methods with $N$ agents. (a) FedNPG via standard average. In the uplink, transmitting the matrix $\mathbf{H}_{i}$ brings $\mathcal{O}(d^{2})$ communication complexity. (b) FedNPG-ADMM in this paper with only $\mathcal{O}(d)$ commu

実験結果

リサーチクエスチョン

RQ1ADMM ベースの勾配更新は、収束を損なうことなくフェデレーテッド二次オーダー方策勾配法の通信複雑さを削減できるのか。
RQ2FedNPG-ADMM は標準の FedNPG の ε-停留点収束速度とサンプル複雑度を維持するのか。
RQ3フェデレーテッドエージェントの数が増減した場合、収束と報酬の観点で FedNPG-ADMM はどうスケールするのか。
RQ4通信削減が報酬性能と部分的なエージェント参加に対するロバスト性に与える実証的影響は何か。

主な発見

ADMM ベースの更新により、アップリンク通信をイテレーションごとに O(d^2) から O(d) に削減。
FedNPG-ADMM は標準の FedNPG と同じ ε-stationary 収束速度を達成し、反復複雑度は K = O(1/((1-γ)^2 ε))。
MuJoCo での実証結果は、FedNPG-ADMM がタスク全体で FedNPG に匹敵する報酬性能を維持することを示す。
フェデレーテッドエージェント数の増加は FedNPG-ADMM の収束速度を改善し、理論的利点に一致する。
FedNPG-ADMM は Swimmer-v4 および Humanoid-v4 タスクにおいて、性能を維持しつつ通信を大幅に削減（数桁に及ぶ）する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。