QUICK REVIEW

[論文レビュー] Opponent Modeling in Deep Reinforcement Learning

He He, Jordan Boyd‐Graber|arXiv (Cornell University)|Sep 18, 2016

Reinforcement Learning in Robotics参考文献 18被引用数 108

ひとこと要約

この論文は DRON (Deep Reinforcement Opponent Network) を用い、ポリシーと対戦相手の挙動を共同で学習する二つのアーキテクチャを提案し、マルチエージェント強化学習において DQN のベースラインを soccer と quiz bowl で上回ることを示すとともに、非定常な対戦相手の扱いにも対応する。さらに multitask supervision と対戦相手戦略の Mixture-of-Experts の検討を行う。

ABSTRACT

Opponent modeling is necessary in multi-agent settings where secondary agents with competing goals also adapt their strategies, yet it remains challenging because strategies interact with each other and change. Most previous work focuses on developing probabilistic models or parameterized strategies for specific applications. Inspired by the recent success of deep reinforcement learning, we present neural-based models that jointly learn a policy and the behavior of opponents. Instead of explicitly predicting the opponent's action, we encode observation of the opponents into a deep Q-Network (DQN); however, we retain explicit modeling (if desired) using multitasking. By using a Mixture-of-Experts architecture, our model automatically discovers different strategy patterns of opponents without extra supervision. We evaluate our models on a simulated soccer game and a popular trivia game, showing superior performance over DQN and its variants.

研究の動機と目的

ドメイン知識に依存しない一般的な対戦相手モデリングフレームワークを強化学習において促進する。
非定常な戦略に対処するために、ポリシーと対戦相手挙動の確率モデルを共同で学習する。
対戦相手表現と Q 学習を結びつけるアーキテクチャを探索し、マルチタスク監督を含む。
二つのタスク（soccer と Quiz Bowl）における多様な対戦相手に対する堅牢性とパフォーマンスを評価する。

提案手法

対戦相手の挙動をモデル化する対戦相手ネットワークも学習する Deep Q-Network である DRON を提案する。
二つのアーキテクチャを比較する: dron-concat は状態表現と対戦相手表現を結合して Q 値を予測し、dron-moE は Mixture-of-Experts を用いて対戦相手の戦略を周辺化する。
任意でマルチタスク監督を適用し、対戦相手に関する直接情報（例: 行動やタイプ）を提供して対戦相手表現 (h^o) を形作る。
対戦相手のポリシーを考慮するように Q 学習の更新を拡張し、Q^{π|π^o} をモデル化し対戦相手情報を組み込む。
二つのタスク、グリッドベースの二人対戦サッカーゲームと Quiz Bowl の質問応答ゲームで評価し、DQN のベースライン (dqn-world と dqn-self) と比較する。
dron-moE における専門家数 (K) の効果と、パフォーマンスに対するマルチタスク監督の影響を調査する。

実験結果

リサーチクエスチョン

RQ1Implicit な対戦相手表現が DRL において適応的な対戦相手に対するポリシーを改善するか？
RQ2dron-concat と dron-moE のいずれが標準的な DQN より対戦相手戦略の変動をよりうまく捉えるか？
RQ3対戦相手に関するマルチタスク監督は、堅牢なポリシーの学習に追加の利点を提供するか？
RQ4DRON モデルは異なるタスクで多様かつ非定常な対戦相手に対してどのように性能を発揮するか？
RQ5タスク間で DRON-MoE のパフォーマンスに対する experts の数の影響はどの程度か？

主な発見

DRON variant は soccer と quiz bowl の両方で DQN ベースラインを上回る。
dron-concat は対戦相手関連の監督を付与すると強い性能を示し、dron-moE は対戦相手戦略の多様性に対して専門家の特化を通じて頑健性を示す。
dron-moE は適切な専門家数を伴うと多くの場合最良またはほぼ最良の結果を達成し、DQN と比較して学習分散を減少させる。
マルチタスク監督は一部の設定（Quiz Bowl の対戦相手タイプなど）で有効だが、すべての DRON variant（例: 行動監督が必ずしも有益でない場合）で必ずしも性能を改善するわけではない。
DQN-world（対戦相手を世界の一部として扱う）は混在した対戦相手の挙動に対して苦戦する一方、DRON は攻撃的な相手と慎重な相手の両方に対してより良いトレードオフを提供する。
Quiz Bowl では dron-moE が dron-concat を上回り、専門家の数を増やすと性能が向上し、対戦相手タイプの監督は専門家をより多用する場合に特に有益である。
総じて、DRON は非定常な対戦相手に対する頑健性の向上を示し、ドメイン特有の対戦相手モデルを持たずに適応的な応答を学習できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。