Skip to main content
QUICK REVIEW

[論文レビュー] Different Strokes in Randomised Strategies: Revisiting Kuhn's Theorem under Finite-Memory Assumptions

James C. A. Main, Mickaël Randour|arXiv (Cornell University)|Jan 1, 2022
Game Theory and Applications被引用数 1
ひとこと要約

本稿は、2人対戦の同時確率ゲームにおける有限記憶ランダム戦略を、初期化、遷移、出力のどのコンponentがランダム化されているかに基づいて分類することで、完全な分類体系を提示する。Kuhnの定理(完全記憶と無限記憶の下で混合戦略と行動戦略が等価である)が有限記憶制約下では成立しないことが示され、戦略クラス間で厳密な表現力の階層が生じる。

ABSTRACT

Two-player (antagonistic) games on (possibly stochastic) graphs are a prevalent model in theoretical computer science, notably as a framework for reactive synthesis. Optimal strategies may require randomisation when dealing with inherently probabilistic goals, balancing multiple objectives, or in contexts of partial information. There is no unique way to define randomised strategies. For instance, one can use so-called mixed strategies or behavioural ones. In the most general setting, these two classes do not share the same expressiveness. A seminal result in game theory -- Kuhn's theorem -- asserts their equivalence in games of perfect recall. This result crucially relies on the possibility for strategies to use infinite memory, i.e., unlimited knowledge of all past observations. However, computer systems are finite in practice. Hence it is pertinent to restrict our attention to finite-memory strategies, defined as automata with outputs. Randomisation can be implemented in these in different ways: the initialisation, outputs or transitions can be randomised or deterministic respectively. Depending on which aspects are randomised, the expressiveness of the corresponding class of finite-memory strategies differs. In this work, we study two-player concurrent stochastic games and provide a complete taxonomy of the classes of finite-memory strategies obtained by varying which of the three aforementioned components are randomised. Our taxonomy holds in games of perfect and imperfect information with perfect recall, and in games with more than two players. We also provide an adapted taxonomy for games with imperfect recall.

研究の動機と目的

  • 2人対戦の同時確率ゲームにおける有限記憶ランダム戦略の表現力の分類。
  • 初期化、遷移、出力におけるランダム化が、戦略の同値性と表現力に与える影響の調査。
  • Kuhnの定理(混合戦略と行動戦略の等価性)が有限記憶仮定の下でも成立するかの特定。
  • 不完全情報かつ完全記憶のゲームへの分類体系の拡張と、戦略クラス間の厳密包含関係の同定。
  • 実用的なリアクティブ合成設定においても、戦略クラス間の分離を示す構成的証明と反例の提供。

提案手法

  • 有限記憶戦略を、ランダム化されたコンponent(初期化、遷移、出力)を有するメーリー機械として定義。
  • 初期化、遷移、出力の3つのコンponentのうち、どのものがランダム化されているかに基づき、8種類の戦略に分類。
  • 結果同値性を比較基準として使用:2つの戦略が任意の相手戦略に対して同一の行動分布を生成する場合、同値とみなす。
  • 戦略クラス間の有効なシミュレーション(例:RDDをDRDでシミュレート)を構築し、包含関係の証明。
  • ゲーム理論的構成により反例を提示し、厳密包含関係を示す(例:DRR戦略では特定のRDD戦略をエミュレートできない)。
  • 観察量を行動量の代わりに使用するように証明を適応することで、不完全情報だが完全記憶のゲームへの一般化を実現。

実験結果

リサーチクエスチョン

  • RQ1有限記憶ランダム戦略のどのクラスが結果同値性の下で表現力的に同値であるか。
  • RQ2戦略が有限記憶に制限された場合、Kuhnの定理(混合戦略と行動戦略の等価性)は成立するか。
  • RQ3完全記憶のゲームにおいて、出力がランダム化された戦略(RDD)は、初期化のみがランダム化された戦略(DRD)によってシミュレート可能か。
  • RQ4ランダム化が有限記憶に制限された場合、戦略クラス間に厳密包含関係が存在するか。また、それらは有効な構成によって確認可能か。
  • RQ5不完全情報だが完全記憶のゲームにおいて、表現力の階層は完全情報ゲームと比べてどのように変化するか。

主な発見

  • 有限記憶ランダム戦略の表現力階層は厳密である:DRR, RDR, RRD, RDD, DRD, DDR, DDD, および RRR はすべて結果同値性の下で相異なる。
  • 完全記憶の下で不完全情報のゲームにおいて、DRR戦略と結果同値な戦略を持たないRDD戦略が存在し、これら2クラス間の厳密な分離を示している。
  • 初期化がランダム化で遷移が決定的である戦略クラス(DRD)は、完全記憶のゲームにおいてすべてのRDD戦略をシミュレート可能であり、厳密包含関係を確立している。
  • 初期化・遷移・出力がすべてランダム化されたRRR戦略は、初期化が決定的で、遷移と出力がランダム化されたDRR戦略によってシミュレート可能であり、RRR ⊆ DRR が成立する。
  • RRR戦略のDRRによるシミュレーションの証明は、RRR戦略の最初のステップにおける記憶分布と一致するように注意深く構成された確率的遷移分布を持つ、新たな初期記憶状態に依存している。
  • 完全記憶の下で不完全情報のゲームへも、完全情報ゲームで確立された分類体系が拡張可能であり、すべての包含関係と厳密な分離が保存される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。