Skip to main content
QUICK REVIEW

[论文解读] Learning Adversarial MDPs with Bandit Feedback and Unknown Transition

Chi Jin, Tiancheng Jin|arXiv (Cornell University)|Dec 3, 2019
Advanced Bandit Algorithms Research参考文献 34被引用 34
一句话总结

本论文提出 UOB-REPS,一种在未知转移和带臂反馈的 episodic 对抗性 MDPs 中的高效算法,达到接近 √T 的后悔界并在多项对数因子内与全信息界相匹配。

ABSTRACT

We consider the problem of learning in episodic finite-horizon Markov decision processes with an unknown transition function, bandit feedback, and adversarial losses. We propose an efficient algorithm that achieves $\mathcal{ ilde{O}}(L|X|\sqrt{|A|T})$ regret with high probability, where $L$ is the horizon, $|X|$ is the number of states, $|A|$ is the number of actions, and $T$ is the number of episodes. To the best of our knowledge, our algorithm is the first to ensure $\mathcal{ ilde{O}}(\sqrt{T})$ regret in this challenging setting; in fact it achieves the same regret bound as (Rosenberg & Mansour, 2019a) that considers an easier setting with full-information feedback. Our key technical contributions are two-fold: a tighter confidence set for the transition function, and an optimistic loss estimator that is inversely weighted by an $ extit{upper occupancy bound}$.

研究动机与目标

  • 在未知转移和对抗性损失的 episodic 有限时域 MDP 中激发/推动学习。
  • 在带臂反馈下,构建对转移的紧致置信集和乐观的损失估计,开发一种算法。
  • 在处理带臂反馈的同时,获得与全信息设置相当且次线性的后悔界。

提出的方法

  • 通过占据量来建模,将策略学习转化为对占据空间的在线线性优化。
  • 构建对转移函数更紧的置信集,界定每个下一个状态的概率界限。
  • 引入一个乐观的、有偏的损失估计量,使用从置信集计算得到的上占据界以及隐式探索。
  • 对占据量应用 Online Mirror Descent,使用基于 KL 散度的 Bregman 发散来更新策略。
  • 通过向后动态规划和贪心优化流程高效计算上占据界。

实验结果

研究问题

  • RQ1在带臂反馈下,未知转移的 episodic 对抗性 MDP 是否能够实现次线性后悔?
  • RQ2如何将转移的置信集与乐观的损失估计量结合起来,在该设定中实现 Online Mirror Descent?
  • RQ3得到的后悔界是什么,以及在何种条件下高概率成立?

主要发现

  • 提出 UOB-REPS,在高概率下实现后悔 R_T = O~(L|X|√(|A|T))。
  • 证明新的每个 (x,a,x′) 的置信界收紧了先前的结果,并实现更紧的分析。
  • 引入基于上占据界的损失估计量,在未知转移下仍然可处理。
  • 证明该算法在这一带臂带来挑战的设置中达到 O~(√T) 后悔,与全信息界几多对数因子内相匹配。
  • 通过向后 DP 的占据界计算和 LP 风格的优化,提供高效的实现路径。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。