QUICK REVIEW

[論文レビュー] Open-ended Learning in Symmetric Zero-sum Games

David Balduzzi, Marta Garnelo|arXiv (Cornell University)|Jan 23, 2019

Game Theory and Applications参考文献 37被引用数 46

ひとこと要約

本論文は対称ゼロ和ゲームにおける開放的学習のための幾何的枠組み（機能形ゲームおよびゲーム스ケープ）を提案し、自己対戦を超えて高非推移的設定で多様で効果的なエージェント集団を生成する rectified Nash PSRO_rN アルゴリズムを提示します。

ABSTRACT

Zero-sum games such as chess and poker are, abstractly, functions that evaluate pairs of agents, for example labeling them `winner' and `loser'. If the game is approximately transitive, then self-play generates sequences of agents of increasing strength. However, nontransitive games, such as rock-paper-scissors, can exhibit strategic cycles, and there is no longer a clear objective -- we want agents to increase in strength, but against whom is unclear. In this paper, we introduce a geometric framework for formulating agent objectives in zero-sum games, in order to construct adaptive sequences of objectives that yield open-ended learning. The framework allows us to reason about population performance in nontransitive games, and enables the development of a new algorithm (rectified Nash response, PSRO_rN) that uses game-theoretic niching to construct diverse populations of effective agents, producing a stronger set of agents than existing algorithms. We apply PSRO_rN to two highly nontransitive resource allocation games and find that PSRO_rN consistently outperforms the existing alternatives.

研究の動機と目的

非推移性が改善を複雑にする二人零和設定における開放的学習の動機付け。
人口レベルの学習を分析するための幾何学的枠組み（機能形ゲームおよびゲーム스ケープ）の形式化。
戦略的風景を拡大し、徐々に強力で多様なエージェントを生み出すアルゴリズムの開発。

提案手法

対称零和機能形ゲーム（FFG）を定義し、それらを推移的成分と循環成分（定理1）に分解する。
ゲーム스케ープ（FGS）および経験的ゲーム스케ープ（EGS）を導入し、集団の相互作用と性能を研究する。
集団の性能と有効多様性を定義して集団成長を導く（定義3および定義4）。
Nash混合に対して訓練するPSRO_N（Nash応答）と、ニッチ化によって多様性を増幅しゲーム스ケープの拡張を保証するPSRO_rN（修正Nash）（アルゴリズム3および4）を提案する。
正の搾取可能性が存在する場合にPSRO_Nがゲームスケープを拡張すること、そしてPSRO_rNが正の報復方向に焦点を当てて多様性を高めることを証明する（命題6および命題7）。
コロンネル・ブルトー（Colonel Blotto）や differentiable Lotto のような高度に非推移的な資源配分ゲームでこのアプローチを実証する（K実験）。

実験結果

リサーチクエスチョン

RQ1非推移的ゼロ和ゲームにおける開放的学習目的をどのように特徴付け、計算できるか。
RQ2集団ベースの目的と多様性志向の機構は戦略的風景を拡張し、自己対戦を上回ることが信頼できるか。
RQ3PSRO_rN風のニッチング手法は非推移的ゲームにおいてPSRO_NやPSRO_Uより強力で多様なエージェント集団を生み出すか。
RQ4機能形ゲームとゲームスケープは循環成分と推移成分の診断と学習ガイドにどのように役立つか。

主な発見

PSRO_rNはBlottoおよび differentiable Lotto で自己対戦、PSRO_N、PSRO_Uを一貫して上回る。
PSRO_rNで経験的ゲームスケープを拡張すると、時間とともに凸包が大きくなり、より広範で効果的な戦略的多様性が生じる。
正の Nash対応相互作用に基づく有効な多様性は、ゲームスケープの成長に伴い増加し、対戦相手のより豊かな活用を反映する。
経験的設定における Nash均衡は循環ゲームで単一の最良エージェントを必要とせず、訓練の安定した参照を提供する。
修正Nashは Nash対応エージェントの正の座標を増幅し、ニッチな多様性と戦略空間のより広い探査を促進する。
このアプローチは、固定解へ収束するのではなく、集団の戦略的風景を継続的に拡大することによって開放的学習を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。