QUICK REVIEW

[論文レビュー] Depth-Limited Solving for Imperfect-Information Games

Noam Brown, Tüomas Sandholm|arXiv (Cornell University)|May 21, 2018

Artificial Intelligence in Games参考文献 34被引用数 28

ひとこと要約

本論文は、深さ制限における不完全情報ゲームの解法に対して、深さ限界で相手が複数の戦略から選択可能であることを許容することで、相手の戦略適応に対して頑健である原理的アプローチを提案する。この手法により、4コアCPUと16GBのメモリのみを用いて、マスタークラスのノーリミット・ホールデムポーカーAIが、従来のトップエージェントをも凌駕することができ、従来の方法がスパコンを必要としていたのに対し、数個のオーダーの計算効率向上を実証した。

ABSTRACT

A fundamental challenge in imperfect-information games is that states do not have well-defined values. As a result, depth-limited search algorithms used in single-agent settings and perfect-information games do not apply. This paper introduces a principled way to conduct depth-limited solving in imperfect-information games by allowing the opponent to choose among a number of strategies for the remainder of the game at the depth limit. Each one of these strategies results in a different set of values for leaf nodes. This forces an agent to be robust to the different strategies an opponent may employ. We demonstrate the effectiveness of this approach by building a master-level heads-up no-limit Texas hold'em poker AI that defeats two prior top agents using only a 4-core CPU and 16 GB of memory. Developing such a powerful agent would have previously required a supercomputer.

研究の動機と目的

隠れた情報と相手の戦略依存性のため、従来の価値置換が失敗する不完全情報ゲームにおける深さ制限解法の課題に対処すること。
ノーリミット・ポーカーのような大規模な逐次ゲームにおける、初期ゲーム部分ゲームの細分化された戦略を事前に計算することが計算的に非現実的であるという課題を克服すること。
巨大な事前計算やスパコン規模のリソースを必要としない、スケーラブルでリアルタイムの深さ制限解法技術を開発すること。
高価な事前計算済み均衡戦略や共同信念状態マッピングに依存せずに、不完全情報ゲームで強力なパフォーマンスを達成すること。

提案手法

深さ限界において、葉ノードに単一の値を割り当てるのではなく、相手が残りのゲームに向けた複数の候補戦略から選択可能であることを許容する。
各相手戦略の選択は、葉ノードの異なる値をもたらし、エージェントがすべての戦略に対して頑健であるように強制する。
エージェントは、相手の選択を複数の可能な結果を持つ意思決定ポイントとして扱い、それぞれが異なる戦略プロファイルに対応するように部分ゲームを解く。
関数近似を用いて、ゲーム状態を戦略ごとの値の集合にマッピングすることで、戦略更新ごとに再計算しなくても効率的な評価が可能になる。
共同信念状態表現を避けることで、固定されたブループrint戦略に対する最良応答を直接モデル化し、入力次元の低減と計算コストの削減を実現する。
部分ゲーム戦略の進化に依存せず、葉ノードの値が状態と固定された相手戦略集合にのみ依存するため、最小限の再計算で反復的解法が可能になり、リアルタイムでの解法が実現する。

実験結果

リサーチクエスチョン

RQ1深さ限界における相手戦略の適応に耐えうるように、固定戦略を仮定するのではなく、相手が戦略を変更できる状況で深さ制限解法を設計できるか？
RQ2事前計算された戦略に代えて、リアルタイムの深さ制限解法を用いることで、限定的な計算リソースでノーリミット・ホールデムポーカーにおいて超人クラスのパフォーマンスを達成できるか？
RQ3複数値状態アプローチは、共同信念状態価値マッピングと比較して、計算コストとスケーラビリティの点でどのように異なるか？
RQ4複数値状態上で訓練された関数近似器は、部分ゲームにおける高コストな均衡計算を効率的かつ正確に置き換えられるか？
RQ5深さ限界で相手が複数の戦略から選択可能であるようにすることで、単一値置換と比較して、より低い利用可能性と高い頑健性が得られるか？

主な発見

提案された深さ制限解法により、4コアCPUと16GBのメモリのみを用いて、マスタークラスのAIがヘッドアップノーリミット・ホールデムポーカーで2つの従来トップエージェントを破ることができ、計算リソースの必要量が著しく削減された。
この方法は、事前計算済み戦略を用いた従来のAIよりも優れたパフォーマンスを達成しているが、計算リソースは数個のオーダーも小さく抑えられている。
低い利用可能性を示しており、相手の戦略適応に対して頑健であり、強力な戦略的一致性があることが示された。
関数近似による複数値状態の処理は、共同信念状態マッピングよりも著しく効率的であり、DeepStackと比較して1,000コア時間未満で済むのに対し、100万コア時間以上を要していた。
部分ゲームの複雑さに応じたスケーラビリティが高く、計算コストが扱う相手戦略数に線形に増加する。一方、共同信念状態手法は次元の高い入力を伴い、より高いコストを要する。
各戦略更新後に葉ノードの値を再計算する必要がなくなるため、リアルタイムでの反復的解法が効率的に可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。