QUICK REVIEW

[論文レビュー] Learning in Time-Varying Games

Benoît Duvocelle, Panayotis Mertikopoulos|arXiv (Cornell University)|Jan 1, 2018

Advanced Bandit Algorithms Research参考文献 73被引用数 11

ひとこと要約

本稿は、勾配に基づくおよび報酬に基づくフィードバックを用いたミラー降下（MD）アルゴリズムを用いて、時間変動するゲームにおけるマルチエージェントオンライン学習を研究している。ゲームの系列が厳密に単調な極限に収束する場合、MDポリシーはナッシュ均衡に収束し、非定常な設定においては変化する均衡を追跡する。これは、弱い正則性およびノイズ条件のもとで成立する。

ABSTRACT

We examine the long-run behavior of multi-agent online learning in games that evolve over time. Specifically, we focus on a wide class of policies based on mirror descent, and we show that the induced sequence of play (a) converges to Nash equilibrium in time-varying games that stabilize in the long run to a strictly monotone limit; and (b) it stays asymptotically close to the evolving equilibrium of the sequence of stage games (assuming they are strongly monotone). Our results apply to both gradient-based and payoff-based feedback - i.e., the "bandit feedback" case where players only get to observe the payoffs of their chosen actions.

研究の動機と目的

時間とともに変化するゲームにおけるマルチエージェントオンライン学習の長期的挙動を分析すること。
ミラー降下に基づく学習ポリシーが、時間変動するゲームにおいてナッシュ均衡に収束するか、あるいは均衡を追跡できるかどうかを特定すること。
フィードバックの種別（勾配に基づく vs. 報酬に基づく（バンディットフィードバック））が、収束および追跡性能に与える影響を検討すること。
学習ダイナミクスが、制限ゲームのナッシュ均衡に漸近的に収束する、または非定常な設定における変化する均衡を追跡するための条件を確立すること。
固定ゲームからの結果を時間変動環境（外部から生じるゲームの変化を伴う）に拡張することで、ゲーム理論的学習におけるギャップを埋めること。

提案手法

コアな学習ポリシーとしてミラー降下（MD）を用い、部分勾配降下、エントロピー勾配降下、およびHedgeアルゴリズムを一般化する。
確率的近似および通常微分方程式（ODE）法を用いて、離散時間の学習ダイナミクスを分析する。
ブレグマン散発とプロキシマル写像を用いて、距離生成関数の強い凸性を活用し、安定性および収束バウンドを導出する。
プレイヤーの選択行動に基づくノイズのある勾配推定を提供する柔軟なオракルモデルを導入し、完全なフィードバックおよびバンディットフィードバックの両方を扱えるようにする。
時間の経過に伴う戦略の進化を制御するために、重み付きブレグマン散発および双対ベクトルの和を用いたテンプレート不等式を導出する。
収束がナッシュ均衡に至ることを保証するため、ゲーム構造における対角的厳密凹性（DSC）および単調性条件に依存する。

実験結果

リサーチクエスチョン

RQ1ゲームの系列が厳密に単調な極限に収束する場合、ミラー降下に基づく学習ポリシーは、時間変動するゲームにおいてナッシュ均衡に収束するか？
RQ2ステージゲームが収束しないが強く単調な場合、このようなポリシーは変化するナッシュ均衡を追跡できるか？
RQ3報酬に基づく（バンディット）フィードバックの可用性が、完全な勾配フィードバックと比較して収束および追跡性能に与える影響は何か？
RQ4ゲームの時間変動構造および学習パrameterにどのような条件が課されると、漸近的収束または追跡が保証されるか？
RQ5ステップサイズポリシーおよびノイズレベルは、非定常ゲームにおける均衡追跡誤差および収束速度にどのように影響するか？

主な発見

ステージゲームの系列が厳密に単調な極限に収束する場合、誘導される戦略の系列は、確率1で極限ゲームのナッシュ均衡に収束する。
収束しない時間変動するゲームでは、戦略の系列は、ステージゲームの系列の変化する均衡に漸近的に近づく。これは、強い単調性を仮定したもとで成立する。
収束および追跡の結果は、勾配に基づくフィードバックおよび報酬に基づくフィードバックの両方で成立し、部分情報に対してもロバストであることが示された。
分析により、ゲーム構造が単調性条件を満たしていれば、ノイズのある勾配推定のもとでも学習ダイナミクスが安定し収束することが保証された。
ブレグマン散発と重み付き双対ベクトルを用いた新しいテンプレート不等式を導出し、戦略の進化を制御可能であることを示した。
フレームワークは決定論的および確率的両設定をサポートし、収束速度は行動空間の幾何構造および距離生成関数の強い凸性パrameterに依存する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。