QUICK REVIEW

[論文レビュー] Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning

Chao Qu, Shie Mannor|arXiv (Cornell University)|Jan 27, 2019

Traffic control and management被引用数 9

ひとこと要約

本稿では、ソフトマックス時系列整合性を用いて、完全に分散型で、オフポリシーかつ非線形関数近似の設定において、非漸近的収束を実現する、新たな分散型マルチエージェント強化学習アルゴリズムであるValue Propagationを提案する。本手法は、O(1/T)の収束レートを達成し、この困難なMARL設定において初めての収束保証を提供する。

ABSTRACT

We consider the networked multi-agent reinforcement learning (MARL) problem in a fully decentralized setting, where agents learn to coordinate to achieve joint success. This problem is widely encountered in many areas including traffic control, distributed control, and smart grids. We assume each agent is located at a node of a communication network and can exchange information only with its neighbors. Using softmax temporal consistency, we derive a primal-dual decentralized optimization method and obtain a principled and data-efficient iterative algorithm named {\em value propagation}. We prove a non-asymptotic convergence rate of $\mathcal{O}(1/T)$ with nonlinear function approximation. To the best of our knowledge, it is the first MARL algorithm with a convergence guarantee in the control, off-policy, non-linear function approximation, fully decentralized setting.

研究の動機と目的

通信が限られた分散型ネットワーキング環境における複数エージェントの協調を課題として取り上げる。
オフポリシー学習および非線形関数近似の下で動作する、データ効率的でスケーラブルなMARLアルゴリズムの開発。
非線形関数近似を伴う分散型設定におけるMARLの理論的収束保証の確立。
ローカルな通信と分散型最適化を通じて、エージェントが共同方策を学習できるようにすること。

提案手法

エージェント間の価値関数を整合させるために、ソフトマックス時系列整合性を用いた原価・双対分散最適化フレームワークを導出する。
ローカル情報と隣接エージェントとの情報交換に基づいて価値推定を更新する反復的アルゴリズム、Value Propagationを提案する。
非線形関数近似器を用いて価値関数を表現し、複雑な方策表現を可能にする。
中央集権的調整なしにエージェント間で一貫性を維持する分散型最適化スキームを採用する。
提案された最適化フレームワークの下で、非漸近的解析を通じて収束を確立する。

実験結果

リサーチクエスチョン

RQ1分散型MARLアルゴリズムは、非線形関数近似を伴っても非漸近的収束を達成できるか？
RQ2完全に分散型でオフポリシーなMARL設定において、データ効率性と協調性を維持することは可能か？
RQ3ローカル通信のみを用いて、エージェント間で価値関数を一貫して整合させることは可能か？
RQ4この困難なMARL設定において、どのような理論的収束レートが達成可能か？

主な発見

Value Propagationは、完全に分散型で、オフポリシーかつ非線形関数近似の設定において、非漸近的収束レートO(1/T)を達成する。
これは、これらの条件下で、このような収束保証を提供する最初のMARLアルゴリズムである。
アルゴリズムは、中央集権的調整なしにエージェント間の価値関数整合性を保つために、ソフトマックス時系列整合性を活用する。
反復的で分散型の更新メカニズムのおかげで、データ効率的かつスケーラブルである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。