Skip to main content
QUICK REVIEW

[論文レビュー] No-regret learning dynamics for extensive-form correlated and coarse correlated equilibria.

Andrea Celli, Alberto Marchesi|arXiv (Cornell University)|Apr 1, 2020
Game Theory and Applications被引用数 4
ひとこと要約

本稿では、一般和n人ゲームにおける展開形式の相関均衡(EFCE)および粗い相関均衡(EFCCE)に対して、反事後的後悔最小化(CFR)フレームワークを用いて、レギュレートなしの学習ダイナミクスを導入する。本稿では、展開形式ゲームに特化した内部後悔の新たな概念を提案し、EFCEへの収束を保証する効率的な内部後悔なしのアルゴリズムを構築する一方で、標準的なCFRが変更なしにEFCCEに収束することを示している。

ABSTRACT

Recently, there has been growing interest around less-restrictive solution concepts than Nash equilibrium in extensive-form games, with significant effort towards the computation of extensive-form correlated equilibrium (EFCE) and extensive-form coarse correlated equilibrium (EFCCE). In this paper, we show how to leverage the popular counterfactual regret minimization (CFR) paradigm to induce simple no-regret dynamics that converge to the set of EFCEs and EFCCEs in an n-player general-sum extensive-form games. For EFCE, we define a notion of internal regret suitable for extensive-form games and exhibit an efficient no-internal-regret algorithm. These results complement those for normal-form games introduced in the seminal paper by Hart and Mas-Colell. For EFCCE, we show that no modification of CFR is needed, and that in fact the empirical frequency of play generated when all the players use the original CFR algorithm converges to the set of EFCCEs.

研究の動機と目的

  • 一般和ゲームにおける展開形式の相関均衡および粗い相関均衡へのレギュレートなしの学習ダイナミクスの拡張を目的とする。
  • n人展開形式ゲームにおけるEFCEおよびEFCCEを計算するための効率的で実用的なアルゴリズムの不足を解消することを目的とする。
  • 反事後的後悔最小化(CFR)パラダイムを、新たな後悔定義およびアルゴリズムを用いて、EFCEおよびEFCCEへの収束を支援するように適応させることを目的とする。
  • 正規形ゲームにおけるHartとMas-Colellの古典的結果を展開形式ゲームへ一般化することを目的とする。

提案手法

  • 展開形式ゲームに特化した内部後悔の新たな概念を導入し、この設定における内部後悔なしの学習を可能にする。
  • 展開形式ゲームの構造と反事後的後悔最小化を活用する効率的な内部後悔なしのアルゴリズムを開発する。
  • すべてのプレイヤーが標準的なCFRを用いる際の実現頻度が、いかなる変更なしにEFCCEの集合に収束することを示す。
  • 相関均衡の概念に適合する形で、展開形式ゲームにおける反事後的後悔を計算・最小化するCFRフレームワークを用いる。
  • 展開形式ゲーム設定における後悔最小化の原則を用いて、EFCEおよびEFCCEの両者に対する理論的収束保証を確立する。
  • 情報集合および逐次的意思決定ノードを扱う後悔最小化パラダイムを、相関行動を支援する形に適応させる。

実験結果

リサーチクエスチョン

  • RQ1n人一般和ゲームにおける展開形式の相関均衡(EFCE)へのレギュレートなしの学習ダイナミクスを拡張することは可能か?
  • RQ2展開形式ゲームの文脈において、EFCEへの収束を支援する内部後悔の適切な定義は何か?
  • RQ3標準的なCFRアルゴリズムは、展開形式ゲームにおいて変更なしにEFCCEに収束するか?
  • RQ4反事後的後悔最小化フレームワークを、逐次的ゲームにおける相関均衡の概念をサポートするようにどのように適応できるか?
  • RQ5HartとMas-Colellによる正規形ゲームにおける理論的結果を、展開形式ゲームへ一般化できるか?

主な発見

  • 展開形式ゲームに特化した内部後悔の新たな定義を導入し、その定義に基づく内部後悔なしの学習アルゴリズムを設計することで、EFCEの集合への収束が可能となった。
  • CFRフレームワーク内で動作し、n人一般和展開形式ゲームにおけるEFCEへの収束を保証する効率的な内部後悔なしのアルゴリズムを提案した。
  • すべてのプレイヤーが標準的なCFRを用いる場合に得られる実現頻度が、いかなるアルゴリズム的変更なしにEFCCEの集合に収束することが示された。
  • 反事後的後悔最小化の性質およびゲームツリーの構造を用いて、EFCCEへの収束が確立された。
  • 後悔最小化の適用範囲を逐次的ゲームにおける相関均衡へ拡張し、HartとMas-Colellの正規形ゲームにおける結果を模倣する結果が得られた。
  • 本フレームワークは、複雑な現実世界の展開形式ゲームにおけるEFCEおよびEFCCEの計算および学習に対して、実用的かつ理論的根拠を備えた手法を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。