Skip to main content
QUICK REVIEW

[論文レビュー] Combining Deep Reinforcement Learning and Search for Imperfect-Information Games

Noam Brown, Anton Bakhtin|arXiv (Cornell University)|Jul 27, 2020
Artificial Intelligence in Games参考文献 54被引用数 62
ひとこと要約

本論文は ReBeL を紹介する。自己対戦 RL+探索フレームワークは二人零和不完全情報ゲームへ収束し、ナッシュ均衡を得て、ドメイン知識を削減した状態でポーカーの人間超えの性能を達成する。

ABSTRACT

The combination of deep reinforcement learning and search at both training and test time is a powerful paradigm that has led to a number of successes in single-agent settings and perfect-information games, best exemplified by AlphaZero. However, prior algorithms of this form cannot cope with imperfect-information games. This paper presents ReBeL, a general framework for self-play reinforcement learning and search that provably converges to a Nash equilibrium in any two-player zero-sum game. In the simpler setting of perfect-information games, ReBeL reduces to an algorithm similar to AlphaZero. Results in two different imperfect-information games show ReBeL converges to an approximate Nash equilibrium. We also show ReBeL achieves superhuman performance in heads-up no-limit Texas hold'em poker, while using far less domain knowledge than any prior poker AI.

研究の動機と目的

  • 不完全情報ゲームにおける RL+Search の必要性を動機づけ、従来手法で欠けていた収束性の問題に対処する。
  • パブリック belief 状態(PBS)へ状態を拡張し、理論的保証を伴う RL+Search を可能にする一般フレームワーク(ReBeL)を開発する。
  • 大規模な不完全情報ゲームとポーカーのベンチマークで、ドメイン知識を減らした状態で empirical 成功を示す。

提案手法

  • 不完全情報ゲームを連続状態の完全情報風設定へ変換するために公開信念状態(PBS)を導入する。
  • 情報状態上に価値ネットワークと方策ネットワークを訓練し、自己対戦と探索を用いて深さ制限付きサブゲームを解く。
  • サブゲーム内の均衡探索ルーチンとして CFR-D(または FP)を用い、リーフ値は学習済みの価値ネットワークから提供される。
  • 情報状態の値が PBS 値の超勾配として機能することを証明し、収束的探索を可能にする。
  • 安全テスト探索を示す:テスト時には訓練時と同じアルゴリズムを実行して、期待値での均衡プレイを保つ。

実験結果

リサーチクエスチョン

  • RQ1RL+Search フレームワークは二人零和不完全情報ゲームで健全かつ収束性を持たせることができるか。
  • RQ2PBSベースの価値と方策ネットワークによる監督が、大規模な不完全情報領域でナッシュ均衡への収束を可能にするか。
  • RQ3このアプローチは、リアルワールドの不完全情報ゲーム(ヘッズアップ no-limit テキサスホールデムなど)で、限られたドメイン知識の下、 Superhuman 性能を達成できるか。

主な発見

ボット名ゲームあたりのエクスプロイタビリティ(ビッグブラインドの千分率)
Slumbot45 ± 5
BabyTartanian89 ± 4
LBR881 ± 94
Top Humans165 ± 69
  • ReBeL は Liar’s Dice のような不完全情報ベンチマークで概ねナッシュ均衡に収束する。
  • ヘッズアップ no-limit テキサスホールデムで、ReBeL は prior ポーカーAI よりもはるかに少ないドメイン知識で人間超えの性能を達成する。
  • 強力な事前ボットと比べて、ReBeL は対抗性指標が競争力があり、意思決定時間も速い(多くの場合数秒以下)。
  • フレームワークは理論的保証を提供する:情報状態の値は超勾配に対応し、T CFR 反復で訓練すると誤差は有界(O(1/√T))。
  • テスト時には、安全探索が適切に訓練された PBS 値ネットワークを使用する場合、近似ナッシュ均衡への収束を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。