[論文レビュー] Online Learning in Markov Decision Processes with Adversarially Chosen Transition Probability Distributions
本稿では、敵対的に選ばれた遷移分布と損失関数を伴うマーカフ連鎖過程(MDPs)に対する効率的なオンライン学習アルゴリズムを提示する。混合性仮定の下で、O(√T log |Π| + log |Π|) のレグレットを達成する。この手法は、エピソード的オンライン最短経路問題へと拡張可能であり、敵対的グラフ構造と確率的損失関数に対して効率的な解法が存在することを示すが、グラフと損失関数の両方が敵対的に選ばれる場合には、ノイズ付きパリティ学習問題と同程度の難易度にまで悪化する。
We study the problem of online learning Markov Decision Processes (MDPs) when both the transition distributions and loss functions are chosen by an adversary. We present an algorithm that, under a mixing assumption, achieves O(√T log |II| + log |II|) regret with respect to a comparison set of policies II. The regret is independent of the size of the state and action spaces. When expectations over sample paths can be computed efficiently and the comparison set II has polynomial size, this algorithm is efficient. We also consider the episodic adversarial online shortest path problem. Here, in each episode an adversary may choose a weighted directed acyclic graph with an identified start and finish node. The goal of the learning algorithm is to choose a path that minimizes the loss while traversing from the start to finish node. At the end of each episode the loss function (given by weights on the edges) is revealed to the learning algorithm. The goal is to minimize regret with respect to a fixed policy for selecting paths. This problem is a special case of the online MDP problem. It was shown that for randomly chosen graphs and adversarial losses, the problem can be efficiently solved. We show that it also can be efficiently solved for adversarial graphs and randomly chosen losses. When both graphs and losses are adversarially chosen, we show that designing efficient algorithms for the adversarial online shortest path problem (and hence for the adversarial MDP problem) is as hard as learning parity with noise, a notoriously difficult problem that has been used to design efficient cryptographic schemes. Finally, we present an efficient algorithm whose regret scales linearly with the number of distinct graphs.
研究の動機と目的
- 遷移確率と損失関数の両方が敵対的に選ばれるMDPにおけるオンライン学習を扱う。
- 状態空間および行動空間のサイズに依存しない低レグレットを達成する効率的なアルゴリズムを開発する。
- さまざまな敵対的設定下でのエピソード的敵対的オンライン最短経路問題の計算複雑性を分析する。
- オンラインMDP学習における tractable と intractable なケースの境界を特定する。
- 敵対的オンラインMDPとノイズ付きパリティ学習問題との関係を確立する。
提案手法
- アルゴリズムはMDPにおける混合性仮定を用いて、時間経過に伴う価値推定の高速収束を保証する。
- 比較用の方策集合 Π を用い、|Π| に対して対数的、T に対して √T のスケーリングを示すレグレットを達成する。
- エピソード的最短経路問題において、敵対的グラフ構造と確率的損失関数に適応する。
- 比較集合 Π が多項式サイズである場合に、サンプルパス上の期待値を効率的に計算することに依存する。
- 状態空間および行動空間のサイズの影響を最終的なレグレット境界から分離するレグレット解析を導入する。
- 期待値が効率的に計算可能で、|Π| が多項式サイズである場合、アルゴリズムは効率的であることが示される。
実験結果
リサーチクエスチョン
- RQ1遷移と損失関数の両方が敵対的に選ばれる状況下で、MDPにおけるオンライン学習を効率的に行うことは可能か?
- RQ2異なる敵対的モデル下でのエピソード的敵対的オンライン最短経路問題の計算複雑性は何か?
- RQ3大きな状態空間および行動空間を伴う敵対的MDPに対して、効率的なアルゴリズムを設計できる条件は何か?
- RQ4グラフと損失関数の両方が敵対的に選ばれる場合、敵対的オンライン最短経路問題はノイズ付きパリティ学習問題と同等に難しいか?
- RQ5グラフが敵対的であるが損失関数が確率的に選ばれる場合、効率的なレグレット最小化アルゴリズムを構築できるか?
主な発見
- 提案されたアルゴリズムは、状態空間および行動空間のサイズに依存しない、|Π| に対して対数的、T に対して √T のスケーリングを示す O(√T log |Π| + log |Π|) のレグレットを達成する。
- サンプルパス上の期待値が効率的に計算可能で、|Π| が多項式サイズである場合、アルゴリズムは効率的である。
- 敵対的グラフ構造と確率的に選ばれた損失関数に対して、エピソード的オンライン最短経路問題は効率的な解法を有する。
- グラフと損失関数の両方が敵対的に選ばれる場合、問題を解くことはノイズ付きパリティ学習問題を解くのと同等に難しい。
- 敵対的設定下で、異なるグラフの数に線形に依存するレグレットを示す効率的なアルゴリズムが提示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。