QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

Johannes Heinrich, David Silver|arXiv (Cornell University)|Mar 3, 2016

Artificial Intelligence in Games参考文献 34被引用数 145

ひとこと要約

NFSP は架空自己対戦とディープ強化学習を組み合わせて、ドメイン知識なしで近似ナッシュ均衡を学習し、Leduc および Limit Hold’em ポーカーで良好に機能する。

ABSTRACT

Many real-world applications can be described as large-scale games of imperfect information. To deal with these challenging domains, prior work has focused on computing Nash equilibria in a handcrafted abstraction of the domain. In this paper we introduce the first scalable end-to-end approach to learning approximate Nash equilibria without prior domain knowledge. Our method combines fictitious self-play with deep reinforcement learning. When applied to Leduc poker, Neural Fictitious Self-Play (NFSP) approached a Nash equilibrium, whereas common reinforcement learning methods diverged. In Limit Texas Holdem, a poker game of real-world scale, NFSP learnt a strategy that approached the performance of state-of-the-art, superhuman algorithms based on significant domain expertise.

研究の動機と目的

ドメイン知識なしで不完全情報ゲームにおけるナッシュ均衡のスケーラブルな学習を推進する。
架空自己対戦とニューラルネットワークを組み合わせてエンドツーエンドの NFSP 手法を開発する。
手作りの抽象化や事前のドメイン知識への依存を排除する。
実世界スケールの Hold’em を含む二人零和ポーカーにおいて、近似ナッシュ戦略への収束を示す。

提案手法

エージェントは二つのニューラルネットワークで構成される。近似的な最適応答のQネットワークと、過去の平均的な挙動を模倣する教師付き平均ポリシーネットワーク。
二つのメモリ: 強化学習データ用の M_RL と教師付き学習データ用の M_SL、リザーバサンプリングによって格納。
エージェントは、近似的な最適応応答（Q の ε-グリーディ法）と平均戦略（Pi）の混合から行動を選択する。
訓練はターゲットネットワークを用いたオフポリシーQ学習と、平均ポリシーを適合させる教師付き学習を用いる。
アン predictive 的ダイナミクスを用いて学習を安定化し、対手の挙動を追跡し、同時対戦自己対戦を可能にする。
この手法は生データまたは最小限にエンコードされた情報状態で動作することで、ドメイン特有の特徴量設計を回避する。

実験結果

リサーチクエスチョン

RQ1NFSP はドメイン知識なしで、不完全情報の二人零和ゲームにおいて近似ナッシュ均衡へ収束することができるか？
RQ2マルチエージェント不完全情報設定における標準的な深層RL（例：DQN）と NFSP の比較はどうなるか？
RQ3手作りの抽象化なしに、Limit Texas Hold’em のような実世界規模の不完全情報ゲームに NFSP はスケーラブルか？
RQ4リザーバサンプリングや予測的ダイナミクスのような要素が NFSP の安定性と性能に与える役割は何か？

主な発見

NFSP は Leduc Hold’em においてナッシュ均衡へ近づく一方、標準的な RL 手法は発散する。
Limit Texas Hold’em では、手作りの抽象化を用いた最先端の超人アルゴリズムに近づく競争力のある戦略を NFSP が学習する。
DQN は平均戦略を持つ場合、不完全情報ポーカーでナッシュへ収束せず、高い活用可能性を残す。
NFSP の必須コンポーネント（リザーバサンプリング、予測的ダイナミクス）を削除すると、性能が低下するか不安定になる。
NFSP の性能はネットワークアーキテクチャの変化に対して頑健で、ポーカー設定で安定的かつ単調増加的な改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。