QUICK REVIEW

[論文レビュー] A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

Marc Lanctot, Vinícius Zambaldi|arXiv (Cornell University)|Nov 2, 2017

Reinforcement Learning in Robotics参考文献 61被引用数 142

ひとこと要約

本論文は Policy-Space Response Oracles (PSRO) と Deep Cognitive Hierarchies (DCH) を MARL に導入し、 joint-policy correlation (JPC) を定量化し、 meta-strategy ベースのポリシー選択により一般的なポリシーを生成する。 gridworlds と Leduc Poker でスケーラブルな実装と検証を行う。

ABSTRACT

To achieve general intelligence, agents must learn how to interact with others in a shared environment: this is the challenge of multiagent reinforcement learning (MARL). The simplest form is independent reinforcement learning (InRL), where each agent treats its experience as part of its (non-stationary) environment. In this paper, we first observe that policies learned using InRL can overfit to the other agents' policies during training, failing to sufficiently generalize during execution. We introduce a new metric, joint-policy correlation, to quantify this effect. We describe an algorithm for general MARL, based on approximate best responses to mixtures of policies generated using deep reinforcement learning, and empirical game-theoretic analysis to compute meta-strategies for policy selection. The algorithm generalizes previous ones such as InRL, iterated best response, double oracle, and fictitious play. Then, we present a scalable implementation which reduces the memory requirement using decoupled meta-solvers. Finally, we demonstrate the generality of the resulting policies in two partially observable settings: gridworld coordination games and poker.

研究の動機と目的

他のエージェントに対する独立した RL ポリシーの過適合の程度を定量化する（joint-policy correlation, JPC）。
既存の手法を統合し、深層強化学習ポリシーをサポートする一般的な MARL フレームワーク（PSRO）を開発する。
部分観測下での実用的な MARL に向けて、分離されたメタソルバを備えたスケーラブルな実装（DCH）を提案する。
gridworld の協調ゲームと Leduc poker において、アプローチの汎用性と頑健性を示す。

提案手法

メタゲームの行動をアクションではなくポリシーとする、Double Oracle を Policy-Space Response Oracles (PSRO) に一般化する。
敵ポリシーの混合に対して最適応答を計算するために深層強化学習を用いる。
ポリシー空間にわたるメタ戦略を計算するために実証ゲーム理論分析（EGTA）を用いる。
Deep Cognitive Hierarchies (DCH) の導入: PSRO の並列・固定深度・マルチプロセス実装でトレーニングをスケールさせる。
探索を伴う分離されたメタ戦略ソルバー（レグレット・マッチング、Hedge、投影レプリケータ動力学）を取り入れ、多様性を促進する。
ポリシーをニューラルネットワークとし、中心報酬テンソル U^Π を任意に用いる、中央集権的な訓練と分散実行の設定を提供する。

実験結果

リサーチクエスチョン

RQ1複数のエージェントが独立に学習する場合の過適合はどれほど深刻か（JPC によって定量化）？
RQ2PSRO/DCH は、異なる対戦相手の行動や部分観測性の下でもうまく機能する一般的で頑健なポリシーを生み出せるか？
RQ3収束性、搾取性、一般化を最適にバランスするメタ戦略ソルバーと探索レベルはどれか？
RQ4設定を跨いだ収束速度と搾取性の観点で、PSRO/DCH は NFSP および CFR ベースのアプローチとどう比較されるか？

主な発見

独立して学習するエージェントは、他の独立に学習されたポリシーと組み合わせると、重大な joint-policy correlation (JPC) の損失を被る。
Deep Cognitive Hierarchies (DCH) は JPC を著しく低減し、より大きく、より部分的に観測されるマップで最大 71.7% の低減を達成し、マップサイズの増加とともに増加する。
PSRO/DCH は Leduc poker で堅牢な対戦戦略を生み出し、NFSP よりも初期収束が速く、固定ボットに対して競争力のある搾取性を示す。
DCH はメタソルバーの分離とオンライン更新によって、フル PSRO に比べて計算空間を抑えつつスケーラブルな代替手段を提供し、複雑な環境での実用的な多Agent 学習を可能にする。
ベースラインと比較して、PSRO/DCH は搾取と一般化をバランスさせ、単一の均衡に過度適合せず、さまざまな対戦相手に適応するポリシーを学習する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。