QUICK REVIEW

[论文解读] Learning Adversarial MDPs with Bandit Feedback and Unknown Transition

Chi Jin, Tiancheng Jin|arXiv (Cornell University)|Dec 3, 2019

Advanced Bandit Algorithms Research参考文献 34被引用 34

一句话总结

本论文提出 UOB-REPS，一种在未知转移和带臂反馈的 episodic 对抗性 MDPs 中的高效算法，达到接近 √T 的后悔界并在多项对数因子内与全信息界相匹配。

ABSTRACT

We consider the problem of learning in episodic finite-horizon Markov decision processes with an unknown transition function, bandit feedback, and adversarial losses. We propose an efficient algorithm that achieves $\mathcal{ ilde{O}}(L|X|\sqrt{|A|T})$ regret with high probability, where $L$ is the horizon, $|X|$ is the number of states, $|A|$ is the number of actions, and $T$ is the number of episodes. To the best of our knowledge, our algorithm is the first to ensure $\mathcal{ ilde{O}}(\sqrt{T})$ regret in this challenging setting; in fact it achieves the same regret bound as (Rosenberg & Mansour, 2019a) that considers an easier setting with full-information feedback. Our key technical contributions are two-fold: a tighter confidence set for the transition function, and an optimistic loss estimator that is inversely weighted by an $ extit{upper occupancy bound}$.

研究动机与目标

在未知转移和对抗性损失的 episodic 有限时域 MDP 中激发/推动学习。
在带臂反馈下，构建对转移的紧致置信集和乐观的损失估计，开发一种算法。
在处理带臂反馈的同时，获得与全信息设置相当且次线性的后悔界。

提出的方法

通过占据量来建模，将策略学习转化为对占据空间的在线线性优化。
构建对转移函数更紧的置信集，界定每个下一个状态的概率界限。
引入一个乐观的、有偏的损失估计量，使用从置信集计算得到的上占据界以及隐式探索。
对占据量应用 Online Mirror Descent，使用基于 KL 散度的 Bregman 发散来更新策略。
通过向后动态规划和贪心优化流程高效计算上占据界。

实验结果

研究问题

RQ1在带臂反馈下，未知转移的 episodic 对抗性 MDP 是否能够实现次线性后悔？
RQ2如何将转移的置信集与乐观的损失估计量结合起来，在该设定中实现 Online Mirror Descent？
RQ3得到的后悔界是什么，以及在何种条件下高概率成立？

主要发现

提出 UOB-REPS，在高概率下实现后悔 R_T = O~(L|X|√(|A|T))。
证明新的每个 (x,a,x′) 的置信界收紧了先前的结果，并实现更紧的分析。
引入基于上占据界的损失估计量，在未知转移下仍然可处理。
证明该算法在这一带臂带来挑战的设置中达到 O~(√T) 后悔，与全信息界几多对数因子内相匹配。
通过向后 DP 的占据界计算和 LP 风格的优化，提供高效的实现路径。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。