QUICK REVIEW

[論文レビュー] Multilinear Formulations for Computing a Nash Equilibrium of Multi-Player Games

Fischer, Miriam, Gupte, Akshay|arXiv (Cornell University)|Jan 1, 2023

Stochastic Gradient Optimization Techniques被引用数 3

ひとこと要約

この論文は、多くのプレイヤーと行動を伴う大規模な正規形ゲームにおいて、報酬テンソルの完全な保存が不可能な状況下でも、限定的ログィット均衡へのホモトピー経路をたどることでナッシュ均衡を近似するサンプルベースの勾配降下法であるADIDASを提案する。適応的サンプリングとバイアス低減技術を用いることで、巨大な報酬テンソルを効率的に処理し、最大7人、21行動のゲームにおけるナッシュ均衡のスケーラブルな近似を可能にした。これは従来の方法と比較して数個のオーダーも大きい。

ABSTRACT

We present multilinear and mixed-integer multilinear programs to find a Nash equilibrium in multi-player noncooperative games. We compare the formulations to common algorithms in Gambit, and conclude that a multilinear feasibility program finds a Nash equilibrium faster than any of the methods we compare it to, including the quantal response equilibrium method, which is recommended for large games. Hence, the multilinear feasibility program is an alternative method to find a Nash equilibrium in multi-player games, and outperforms many common algorithms. The mixed-integer formulations are generalisations of known mixed-integer programs for two-player games, however unlike two-player games, these mixed-integer programs do not give better performance than existing algorithms.

研究の動機と目的

多くのプレイヤーと行動を伴う大規模な正規形ゲームにおけるナッシュ均衡の計算におけるスケーラビリティのギャップを解消すること。
複数プレイヤーのゲームにおける巨大な報酬テンソルの保存および処理のメモリおよび計算上の非現実性を克服すること。
正確な計算が非現実的である場合でも、一意なナッシュ均衡を近似できる実用的でサンプルベースの手法を提供すること。
確率的近似における平均的逸脱インcentive（ADI）目的関数の勾配バイアスを、適応的サンプリングとエントロピー正則化を用いて低減すること。
完全なゲーム列挙が非現実的であるDiplomacyのような複雑な環境におけるマルチエージェント戦略のスケーラブルな評価を可能にすること。

提案手法

ADIDASは、エントロピーを徐々に減少させる正則化ゲームから出発し、制限的ログィット均衡へのホモトピー経路をたどる。この均衡はほとんどすべてのゲームで一意であることが保証されている。
平均的逸脱インセンティブ（ADI）を非凸的かつ非滑らかで非線形なmax演算子を含む目的関数として定式化し、確率的勾配にバイアスを生じさせる。
報酬テンソル要素の適応的サンプリングを用いた確率的勾配降下法を適用し、モンテカルロ推定を用いてADI目的関数を最小化する。
時間とともに冷却される温度パrameterを用いたTsallisエントロピー正則化を導入し、学習の安定性を高め、バイアスを低減する。
主なイノベーションとして、戦略分布と報酬勾配推定値の両方に対して双対勾配更新を適用し、単体上への射影により有効な確率分布を維持する。
反復的に双線形近似を構築し、元のゲームに対する反応を行うことで、多項式行列近似を統合し、古典的ソルバーと接続する。

実験結果

リサーチクエスチョン

RQ1完全な報酬保存が非現実的である大規模なマルチプレイヤー正規形ゲームにおいて、サンプルベースの勾配降下法が一意なナッシュ均衡を近似可能かどうか。
RQ2ADI目的関数における非線形max演算子に起因する勾配バイアスを、確率的近似において効果的に低減する方法は何か。
RQ3ホモトピー続行法とエントロピー正則化をどの程度活用することで、高次元ゲームにおける安定的かつ一意な均衡への収束を導けるか。
RQ4提案手法は、7人を超えるプレイヤーと21行動以上のゲームにスケーリング可能か。これは従来の計算限界を著しく超える。
RQ5Diplomacyのような複雑なマルチエージェント環境において、ADIDASはノーリグレット学習ベースラインと比較して収束性と正確性に優れているか。

主な発見

ADIDASは、7人、21行動の正規形ゲーム（数十億の結果を含む）において、一意なナッシュ均衡を成功裏に近似し、従来の手法をはるかに超えるスケーラビリティを示した。
古典的ソルバーがメモリおよび計算制約により非現実的となるゲームにおいて、安定した均衡への収束を達成した。
適応的サンプリングとTsallisエントロピー正則化により、max演算子に起因する勾配バイアスが効果的に低減され、安定した最適化が可能になった。
制限的ログィット均衡へのホモトピー続行法の使用により、均衡選択問題を回避でき、この均衡はほとんどすべてのゲームで一意である。
実験的結果から、ADIDASは特にDiplomacyのような複雑で高次元のゲームにおいて、ノーリグレット学習ベースラインを上回るナッシュに類似したプロファイルへの収束を示した。
本手法により、21体のDiplomacyボットを含むメタゲームのスケーラブルな評価が可能になり、前回の評価と比較して1000倍以上の規模の拡大が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。