QUICK REVIEW

[論文レビュー] On the robustness of learning in games with stochastically perturbed payoff observations

Mario Bravo, Panayotis Mertikopoulos|arXiv (Cornell University)|Dec 19, 2014

Game Theory and Applications参考文献 73被引用数 26

ひとこと要約

本稿では、プレイヤーが確率的ノイズを伴う報酬観測を受けるゲームにおける学習ダイナミクスを研究し、任意のノイズレベル下でも、単一プレイヤー設定ではノーレグレットを達成し、複数プレイヤー設定ではナッシュ均衡に収束することを示している。主な結果には、劣化戦略の消滅、厳密ナッシュ均衡の確率的安定性、および内部均衡を有するゼロサムゲームにおける時間平均の均衡収束が含まれる。

ABSTRACT

Motivated by the scarcity of accurate payoff feedback in practical applications of game theory, we examine a class of learning dynamics where players adjust their choices based on past payoff observations that are subject to noise and random disturbances. First, in the single-player case (corresponding to an agent trying to adapt to an arbitrarily changing environment), we show that the stochastic dynamics under study lead to no regret almost surely, irrespective of the noise level in the player's observations. In the multi-player case, we find that dominated strategies become extinct and we show that strict Nash equilibria are stochastically stable and attracting; conversely, if a state is stable or attracting with positive probability, then it is a Nash equilibrium. Finally, we provide an averaging principle for 2-player games, and we show that in zero-sum games with an interior equilibrium, time averages converge to Nash equilibrium for any noise level.

研究の動機と目的

報酬観測に確率的ノイズが加わる状況下でも、ゲームにおける学習ダイナミクスが合理的かつ安定したままであるかどうかを調査すること。
報酬フィードバックが不完全でノイズを含む状況へ、強化学習（例：指数重み法）の既知の収束性を拡張すること。
任意のノイズレベル下でも、厳密ナッシュ均衡が確率的に安定的かつ吸引的であるかどうかを特定すること。
2人ゼロサムゲームにおいて内部均衡を有する状況で、プレーの時間平均がナッシュ均衡に収束する条件を確立すること。

提案手法

累積報酬スコアに基づく連続時間の強化学習フレームワークを用いて、戦略の更新をモデル化し、アクション選択にはスコアのソフトマックス（指数重み）選択を採用する。
ブラウン運動を伴うイ伊ト過程を用いて報酬観測への確率的摂動を導入し、現実世界の不確実性をモデル化する。
収束性と安定性の分析に、Fenchelカップリングおよび凸共役関数を用い、確率解析およびマルティンゲール理論の道具を活用する。
イタロの公式を用いて、戦略ベクトルと報酬ベクトル間のFenchelカップリングのダイナミクスを導出し、レグレットと安定性の分析を可能にする。
平均化原理を適用して、2人ゼロサムゲームにおけるプレーの時間平均がナッシュ均衡に収束することを示す。
リャプノフ関数および大偏差技術に基づく確率的安定性の議論を用いて、厳密均衡が正の確率で吸引的であることを証明する。

実験結果

リサーチクエスチョン

RQ1報酬観測に任意の高いノイズが加わる状況下でも、指数重み学習のノーレグレット性が維持されるか？
RQ2確率的報酬摂動下でも、複数プレイヤー設定における劣化戦略は依然として消滅するか？
RQ3プレイヤーがノイズのある報酬信号を受け取る状況下でも、厳密ナッシュ均衡は依然として確率的に安定的かつ吸引的か？
RQ42人ゼロサムゲームにおいて、内部均衡を有する状況で、ノイズのあるフィードバック下でのプレーの時間平均がナッシュ均衡に収束する条件は何か？
RQ5一般の確率的摂動下でも、学習ダイナミクスに対して普遍的な一貫性（ノーレグレット）を確立できるか？

主な発見

単一プレイヤー設定では、報酬観測のノイズレベルにかかわらず、プレイヤーはほとんど確実にノーレグレットを達成する。
複数プレイヤー設定では、提案された学習ダイナミクス下で劣化戦略はほとんど確実に消滅する。
任意の分散の大きなノイズが報酬観測に加わる状況下でも、厳密ナッシュ均衡は確率的に安定的かつ吸引的である。
ある状態が正の確率で安定的または吸引的であるならば、それはナッシュ均衡でなければならない。
内部ナッシュ均衡を有する2人ゼロサムゲームでは、任意のノイズレベル下でもプレーの時間平均がナッシュ均衡に収束する。
2人ゲームでは平均化原理が成り立ち、確率的摂動下でも経験的プレーが均衡に収束することが保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。