Skip to main content
QUICK REVIEW

[論文レビュー] Learning Adversarial MDPs with Bandit Feedback and Unknown Transition

Chi Jin, Tiancheng Jin|arXiv (Cornell University)|Dec 3, 2019
Advanced Bandit Algorithms Research参考文献 34被引用数 34
ひとこと要約

本論文は、未知の遷移と敵対的損失を伴うエピソード型対戦的MDPに対する効率的なアルゴリズムである UOB-REPS を紹介し、ほぼ √T の後悔を達成し、ポリログ因子まで全情報境界に一致することを示す。

ABSTRACT

We consider the problem of learning in episodic finite-horizon Markov decision processes with an unknown transition function, bandit feedback, and adversarial losses. We propose an efficient algorithm that achieves $\mathcal{ ilde{O}}(L|X|\sqrt{|A|T})$ regret with high probability, where $L$ is the horizon, $|X|$ is the number of states, $|A|$ is the number of actions, and $T$ is the number of episodes. To the best of our knowledge, our algorithm is the first to ensure $\mathcal{ ilde{O}}(\sqrt{T})$ regret in this challenging setting; in fact it achieves the same regret bound as (Rosenberg & Mansour, 2019a) that considers an easier setting with full-information feedback. Our key technical contributions are two-fold: a tighter confidence set for the transition function, and an optimistic loss estimator that is inversely weighted by an $ extit{upper occupancy bound}$.

研究の動機と目的

  • 未知の遷移と adversarial losses に直面するエピソード型有限ホライゾンMDPにおける学習の動機づけ。
  • バンディットフィードバック下で遷移に対する厳密な信頼集合と楽観的な損失推定を組み込んだアルゴリズムを開発する。
  • バンディットフィードバックを扱いながら、フル情報設定と同等のサブ線形後悔境界を達成する。

提案手法

  • 占有量測度を用いて問題をモデル化し、ポリシー学習を占有空間上のオンライン線形最適化へと変換する。
  • 次状態ごとの確率を境界づける遷移関数のより厳密な信頼集合を構築する。
  • 信頼集合から計算された上限占有界と暗黙の探索を用いた楽観的で偏りのある損失推定量を導入する。
  • ポリシーを更新するため、KLダージャンスに基づくBregman発散を用いた occupancy measures 上の Online Mirror Descent を適用する。
  • 後向き動的計画法と貪欲最適化手順を用いて上限占有界を効率的に計算する。

実験結果

リサーチクエスチョン

  • RQ1未知の遷移を持つエピソード型対戦的MDPにおいて、バンディットフィードバック下でサブ線形後悔を達成できるか?
  • RQ2この設定で Online Mirror Descent を可能にするために、遷移の信頼集合と楽観的損失推定量をどのように組み合わせられるか?
  • RQ3得られる後悔境界はどのようなもので、どの条件で高確率で成り立つのか?

主な発見

  • UOB-REPS を提案し、高確率で R_T = O~(L|X|√(|A|T)) の後悔を達成。
  • 新しい per-(x,a,x′) 確信界が以前の結果をより厳密に tight し、より厳密な解析を可能にする。
  • 未知の遷移下でも扱いやすい、上限占有界ベースの損失推定量を導入する。
  • この難解なバンディット設定で O~(√T) の後悔を達成し、ポリログ因子までフル情報境界と一致することを示す。
  • 占有界計算のための後向きDPとLP風最適化による効率的な実装経路を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。