QUICK REVIEW

[論文レビュー] Combining Deep Reinforcement Learning and Search for Imperfect-Information Games

Noam Brown, Anton Bakhtin|arXiv (Cornell University)|Jul 27, 2020

Artificial Intelligence in Games参考文献 54被引用数 62

ひとこと要約

本論文は ReBeL を紹介する。自己対戦 RL+探索フレームワークは二人零和不完全情報ゲームへ収束し、ナッシュ均衡を得て、ドメイン知識を削減した状態でポーカーの人間超えの性能を達成する。

ABSTRACT

The combination of deep reinforcement learning and search at both training and test time is a powerful paradigm that has led to a number of successes in single-agent settings and perfect-information games, best exemplified by AlphaZero. However, prior algorithms of this form cannot cope with imperfect-information games. This paper presents ReBeL, a general framework for self-play reinforcement learning and search that provably converges to a Nash equilibrium in any two-player zero-sum game. In the simpler setting of perfect-information games, ReBeL reduces to an algorithm similar to AlphaZero. Results in two different imperfect-information games show ReBeL converges to an approximate Nash equilibrium. We also show ReBeL achieves superhuman performance in heads-up no-limit Texas hold'em poker, while using far less domain knowledge than any prior poker AI.

研究の動機と目的

不完全情報ゲームにおける RL+Search の必要性を動機づけ、従来手法で欠けていた収束性の問題に対処する。
パブリック belief 状態（PBS）へ状態を拡張し、理論的保証を伴う RL+Search を可能にする一般フレームワーク（ReBeL）を開発する。
大規模な不完全情報ゲームとポーカーのベンチマークで、ドメイン知識を減らした状態で empirical 成功を示す。

提案手法

不完全情報ゲームを連続状態の完全情報風設定へ変換するために公開信念状態（PBS）を導入する。
情報状態上に価値ネットワークと方策ネットワークを訓練し、自己対戦と探索を用いて深さ制限付きサブゲームを解く。
サブゲーム内の均衡探索ルーチンとして CFR-D（または FP）を用い、リーフ値は学習済みの価値ネットワークから提供される。
情報状態の値が PBS 値の超勾配として機能することを証明し、収束的探索を可能にする。
安全テスト探索を示す：テスト時には訓練時と同じアルゴリズムを実行して、期待値での均衡プレイを保つ。

実験結果

リサーチクエスチョン

RQ1RL+Search フレームワークは二人零和不完全情報ゲームで健全かつ収束性を持たせることができるか。
RQ2PBSベースの価値と方策ネットワークによる監督が、大規模な不完全情報領域でナッシュ均衡への収束を可能にするか。
RQ3このアプローチは、リアルワールドの不完全情報ゲーム（ヘッズアップ no-limit テキサスホールデムなど）で、限られたドメイン知識の下、 Superhuman 性能を達成できるか。

主な発見

ボット名	ゲームあたりのエクスプロイタビリティ（ビッグブラインドの千分率）
Slumbot	45 ± 5
BabyTartanian8	9 ± 4
LBR	881 ± 94
Top Humans	165 ± 69

ReBeL は Liar’s Dice のような不完全情報ベンチマークで概ねナッシュ均衡に収束する。
ヘッズアップ no-limit テキサスホールデムで、ReBeL は prior ポーカーAI よりもはるかに少ないドメイン知識で人間超えの性能を達成する。
強力な事前ボットと比べて、ReBeL は対抗性指標が競争力があり、意思決定時間も速い（多くの場合数秒以下）。
フレームワークは理論的保証を提供する：情報状態の値は超勾配に対応し、T CFR 反復で訓練すると誤差は有界（O(1/√T))。
テスト時には、安全探索が適切に訓練された PBS 値ネットワークを使用する場合、近似ナッシュ均衡への収束を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。