[论文解读] Learning Adversarial MDPs with Bandit Feedback and Unknown Transition
本论文提出 UOB-REPS,一种在未知转移和带臂反馈的 episodic 对抗性 MDPs 中的高效算法,达到接近 √T 的后悔界并在多项对数因子内与全信息界相匹配。
We consider the problem of learning in episodic finite-horizon Markov decision processes with an unknown transition function, bandit feedback, and adversarial losses. We propose an efficient algorithm that achieves $\mathcal{ ilde{O}}(L|X|\sqrt{|A|T})$ regret with high probability, where $L$ is the horizon, $|X|$ is the number of states, $|A|$ is the number of actions, and $T$ is the number of episodes. To the best of our knowledge, our algorithm is the first to ensure $\mathcal{ ilde{O}}(\sqrt{T})$ regret in this challenging setting; in fact it achieves the same regret bound as (Rosenberg & Mansour, 2019a) that considers an easier setting with full-information feedback. Our key technical contributions are two-fold: a tighter confidence set for the transition function, and an optimistic loss estimator that is inversely weighted by an $ extit{upper occupancy bound}$.
研究动机与目标
- 在未知转移和对抗性损失的 episodic 有限时域 MDP 中激发/推动学习。
- 在带臂反馈下,构建对转移的紧致置信集和乐观的损失估计,开发一种算法。
- 在处理带臂反馈的同时,获得与全信息设置相当且次线性的后悔界。
提出的方法
- 通过占据量来建模,将策略学习转化为对占据空间的在线线性优化。
- 构建对转移函数更紧的置信集,界定每个下一个状态的概率界限。
- 引入一个乐观的、有偏的损失估计量,使用从置信集计算得到的上占据界以及隐式探索。
- 对占据量应用 Online Mirror Descent,使用基于 KL 散度的 Bregman 发散来更新策略。
- 通过向后动态规划和贪心优化流程高效计算上占据界。
实验结果
研究问题
- RQ1在带臂反馈下,未知转移的 episodic 对抗性 MDP 是否能够实现次线性后悔?
- RQ2如何将转移的置信集与乐观的损失估计量结合起来,在该设定中实现 Online Mirror Descent?
- RQ3得到的后悔界是什么,以及在何种条件下高概率成立?
主要发现
- 提出 UOB-REPS,在高概率下实现后悔 R_T = O~(L|X|√(|A|T))。
- 证明新的每个 (x,a,x′) 的置信界收紧了先前的结果,并实现更紧的分析。
- 引入基于上占据界的损失估计量,在未知转移下仍然可处理。
- 证明该算法在这一带臂带来挑战的设置中达到 O~(√T) 后悔,与全信息界几多对数因子内相匹配。
- 通过向后 DP 的占据界计算和 LP 风格的优化,提供高效的实现路径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。