[論文レビュー] Online Convex Optimization in Adversarial Markov Decision Processes
本論文は UC-O-REPS を提案する。未知の遷移を持つエピソード型ループフリー対戦的MDPにおけるオンライン学習でほぼ最適な後悔境界を達成し、凸性能基準へ拡張する。
We consider online learning in episodic loop-free Markov decision processes (MDPs), where the loss function can change arbitrarily between episodes, and the transition function is not known to the learner. We show $ ilde{O}(L|X|\sqrt{|A|T})$ regret bound, where $T$ is the number of episodes, $X$ is the state space, $A$ is the action space, and $L$ is the length of each episode. Our online algorithm is implemented using entropic regularization methodology, which allows to extend the original adversarial MDP model to handle convex performance criteria (different ways to aggregate the losses of a single episode) , as well as improve previous regret bounds.
研究の動機と目的
- 未知のダイナミクスと変化する損失を持つ対戦的MDPにおけるオンライン学習を動機づける。
- 低い後悔を達成するためにオンライン凸最適化と強化学習を組み合わせるアルゴリズムを開発する。
- 凸性能基準をサポートするように対戦的MDPモデルを拡張する。
- 高確率保証を扱いながら、アクション空間と状態空間のサイズに関して従来の後悔境界を改善する。
提案手法
- 占有測度を導入してMDP学習をオンライン凸最適化として再表現する。
- エントロピー正規化を用いたオンラインミラー降下(OMD)で占有測度を更新する。
- 未知の遷移ダイナミクスに対処するために信頼集合(UCRL-2風)を取り入れる。
- 未知の遷移を前提とした楽観性を持つ信頼集合内で最適化するUC-O-REPSを開発する。
- 占有測度上の凸プログラムに縮約される実行可能な最適化ステップを提供する。
- 近似誤差とオンライン最適化誤差に分解される後悔境界を証明する。
実験結果
リサーチクエスチョン
- RQ1未知ダイナミクスを持つ対戦的MDPにおけるオンライン学習はサブ線形な後悔を達成できるか?
- RQ2占有測度を用いて対戦的MDP学習をオンライン凸最適化問題にキャスティングするにはどうするか?
- RQ3OMDと信頼集合計画を組み合わせると凸性能基準の下でほぼ最適な後悔をもたらすか?
- RQ4総期待損失を超える凸多次元の損失集約にフレームワークはどう対応するか?
- RQ5未知転移対戦的MDPに対する高確率の後悔保証は何か?
主な発見
- 未知のダイナミクスに対する対戦的損失の下で、tilde{O}(L|X|\\,sqrt{|A|T}) の後悔境界を達成。
- エントロピー正規化とオンラインミラー降下を介して凸性能基準へ対戦的MDPを拡張する。
- 境界は高確率で成立することを示し、大規模な行動空間における従来の境界を改善する。
- 未知の遷移に対する高確率境界がL, |X|, sqrt(T), および sqrt(|A|)に比例してスケールする境界を提供する。
- 未知の遷移を扱う信頼集合と楽観計画を用いる実用的なアルゴリズム(UC-O-REPS)を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。