QUICK REVIEW

[論文レビュー] Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward

Guannan Qu, Yiheng Lin|arXiv (Cornell University)|Jun 11, 2020

Reinforcement Learning in Robotics参考文献 37被引用数 23

ひとこと要約

本稿では、平均報酬を目的関数とするネットワーク化されたシステムにおけるマルチエージェント強化学習（MARL）のスケーラビリティを向上させるために、局所的相互作用と指数的減衰性質を活用したスケーラブルなアクタ・クリティック（SAC）手法を提案する。境界付きの相互作用強度のもとで、遠く離れたエージェントへの影響が指数関数的に減少することを証明し、局所的近傍サイズにのみ依存するスケーラブルな2段階時間スケールのアクタ・クリティックアルゴリズムを構築することで、定常点の $O(\rho^{\kappa+1})$-近似を達成する。

ABSTRACT

It has long been recognized that multi-agent reinforcement learning (MARL) faces significant scalability issues due to the fact that the size of the state and action spaces are exponentially large in the number of agents. In this paper, we identify a rich class of networked MARL problems where the model exhibits a local dependence structure that allows it to be solved in a scalable manner. Specifically, we propose a Scalable Actor-Critic (SAC) method that can learn a near optimal localized policy for optimizing the average reward with complexity scaling with the state-action space size of local neighborhoods, as opposed to the entire network. Our result centers around identifying and exploiting an exponential decay property that ensures the effect of agents on each other decays exponentially fast in their graph distance.

研究の動機と目的

グローバルな状態空間と行動空間が指数関数的に増大するため、マルチエージェント強化学習（MARL）におけるスケーラビリティの課題に対処する。
通信ネットワークやキューイングネットワークなどのネットワーク化システムにおいてより自然な平均報酬目的関数を用いた効率的学習を可能にする。
エージェントの影響がグラフ距離とともに指数関数的に減少する条件を同定することで、平均報酬MARLにおける正当なスケーラビリティを確立する。
局所的近傍サイズにのみ依存して複雑性が増加する2段階時間スケールのアクタ・クリティックアルゴリズムを設計し、局所的ポリシーを学習する。
無線マルチアクセス通信プロトコル設計の設定において、本手法の有効性を実証する。

提案手法

ネットワーク化システムにおける局所的相互作用を活用して、局所的ポリシーを学習するスケーラブルなアクタ・クリティック（SAC）手法を提案する。
境界付きの相互作用強度のもとで、エージェント同士の影響がグラフ距離とともに指数関数的に減少するという性質を活用する。
2段階時間スケールのアクタ・クリティックフレームワークを用いて平均報酬目的関数を最適化し、ポリシーと価値関数の更新に別々の学習率を適用する。
局所的状態変更が遠く離れたエージェントの状態分布に与える影響が小さくなることを示す、新しいMDP摂動結果を適用する。
各エージェントの行動が、自身の局所的状態と近隣エージェントにのみ依存するようにポリシーをパラメータ化することで、スケーラビリティを確保する。
各エージェントのQ値が、自身の局所的状態・行動と近隣エージェントの行動にのみ依存するように、局所的価値関数近似を設計する。

実験結果

リサーチクエスチョン

RQ1最悪の場合の非効率性にもかかわらず、平均報酬MARL設定においてエージェントの影響が指数関数的に減少することを確立できるか？
RQ2指数的減衰の性質が、グローバルな状態・行動空間ではなく局所的近傍サイズにのみ依存する複雑性でスケーラブルな学習を可能にするか？
RQ32段階時間スケールのアクタ・クリティックアルゴリズムが、平均報酬目的関数のもとで近似的に最適な局所的ポリシーを達成できるか？
RQ4本手法は、実世界のネットワーク化システムにおけるベースラインプロトコルと比較して、どのように性能を発揮するか？
RQ5相互作用強度にどのような条件を課すことで、平均報酬MARLにおける指数的減衰性質の有効性が保証されるか？

主な発見

本稿では、境界付きの相互作用強度のもとで、平均報酬設定においてもエージェント同士の影響がグラフ距離とともに指数関数的に減少することを証明している。
提案されたスケーラブルなアクタ・クリティック（SAC）手法は、平均報酬目的関数の定常点の $O(\rho^{\kappa+1})$-近似を達成する。
アルゴリズムの計算複雑性は、グローバルな状態・行動空間ではなく、最大の $\kappa$-ホップ近傍のサイズにのみ依存するため、スケーラビリティが確保される。
5×5の無線ネットワークにおける数値実験では、送信確率を入手できない状況でも、SAC手法がベースラインのALOHAプロトコルを上回る性能を示した。
ランダムに生成された問題インスタンスにおいて、指数的減衰性質が高確率で成立することが確認され、手法のロバストネスが裏付けられた。
新規に導入されたMDP摂動結果により、局所的状態変更が遠く離れたエージェントの状態分布に与える影響が小さくなることが確立され、指数的減衰性質の根拠が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。