QUICK REVIEW

[論文レビュー] Stochastic Stability of Reinforcement Learning in Positive-Utility Games.

Georgios C. Chasparis|arXiv (Cornell University)|Sep 18, 2017

Economic theories and models被引用数 1

ひとこと要約

本稿は、正の利得を持つ有限戦略型ゲームにおける強化学習の確率的安定性分析を、リャプノフ関数やポテンシャル関数を必要としない不変確率測度枠組みを用いて提案する。この手法により、このようなゲームにおける不変測度の計算手法を確立し、協調ゲームにおいて確率的安定状態への収束を示している。

ABSTRACT

This paper considers a class of reinforcement-based learning (namely, perturbed learning automata) and provides a stochastic-stability analysis in repeatedly-played, positive-utility, finite strategic-form games. Prior work in this class of learning dynamics primarily analyzes asymptotic convergence through stochastic approximations, where convergence can be associated with the limit points of an ordinary-differential equation (ODE). However, analyzing global convergence through an ODE-approximation requires the existence of a Lyapunov or a potential function, which naturally restricts the analysis to a fine class of games. To overcome these limitations, this paper introduces an alternative framework for analyzing asymptotic convergence that is based upon an explicit characterization of the invariant probability measure of the induced Markov chain. We further provide a methodology for computing the invariant probability measure in positive-utility games, together with an illustration in the context of coordination games.

研究の動機と目的

リャプノフ関数やポテンシャル関数に依存するODEに基づく収束解析の限界を克服すること。
このような関数を必要としない確率的安定性分析の枠組みを構築すること。
摂動を加えた学習オートマトンによって誘導されるマルコフ連鎖の不変確率測度を明示的に特定すること。
正の利得ゲームにおける不変測度の計算手法を提供すること。
協調ゲームの文脈においてこの手法を提示し、確率的安定な結果への収束を示すこと。

提案手法

有限戦略型ゲームにおける学習メカニズムとして摂動を加えた学習オートマトンを用いる。
誘導されるマルコフ連鎖を分析し、その不変確率測度を特徴付ける。
不変測度を用いて学習結果の確率的安定性を評価する。
正の利得ゲームにおける不変測度の計算手順を導出する。
ODE近似に依存せずに、明示的な代数的および確率的技法を用いて長期的行動を計算する。
協調ゲームへの応用を通じてフレームワークを検証し、確率的安定な均衡への収束を示す。

実験結果

リサーチクエスチョン

RQ1リャプノフ関数やポテンシャル関数に依存せずに、強化学習における確率的安定性をどのように分析できるか？
RQ2不変確率測度は、正の利得ゲームにおける長期的学習行動を特徴付ける上で果たす役割は何か？
RQ3正の利得ゲームにおいて不変測度を明示的に計算可能か？もしそうなら、その方法は何か？
RQ4本手法は、ODEに基づく収束解析と比較して、一般性および適用範囲においてどのように異なるか？
RQ5本フレームワーク下で、協調ゲームにおける学習ダイナミクスの確率的安定性特性は何か？

主な発見

不変確率測度は、強化学習ダイナミクスにおける確率的安定状態を直接特徴付ける。
本手法により、リャプノフ関数やポテンシャル関数の存在を仮定せずとも、確率的安定性分析が可能になる。
正の利得ゲームに対して、不変測度の計算可能な枠組みが確立された。
協調ゲームでは、本手法により確率的安定な均衡が長期的学習結果として特定される。
ポテンシャル関数を許容するゲームのクラスを超えて、収束解析の範囲が拡張された。
結果として、ODEに基づく手法が失敗する状況においても、摂動を加えた学習オートマトンが確率的安定状態に収束することを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。