QUICK REVIEW

[论文解读] Variational Regret Bounds for Reinforcement Learning

Pratik Gajane, Ronald Ortner|arXiv (Cornell University)|May 14, 2019

Advanced Bandit Algorithms Research参考文献 13被引用 27

一句话总结

本文提出了 Variation-aware UCRL，一种用于奖励和转移概率随时间变化的非平稳马尔可夫决策过程（MDP）的强化学习算法。该工作首次建立了变分 regret 边界，实现了高概率 regret 为 $\tilde{\mathcal{O}}(V^{1/3}T^{2/3}DS\sqrt{A})$，其中 $V$ 为 MDP 中的总变差，相较于以往在渐变条件下会变得无用的边界，该结果实现了显著改进。

ABSTRACT

We consider undiscounted reinforcement learning in Markov decision processes (MDPs) where both the reward functions and the state-transition probabilities may vary (gradually or abruptly) over time. For this problem setting, we propose an algorithm and provide performance guarantees for the regret evaluated against the optimal non-stationary policy. The upper bound on the regret is given in terms of the total variation in the MDP. This is the first variational regret bound for the general reinforcement learning setting.

研究动机与目标

解决奖励和转移概率随时间变化的 MDP 中的强化学习问题，以建模真实世界中的非平稳环境。
开发一种能够根据 MDP 中变化程度自适应调整的算法，而非假设突变或固定变化。
提供一个与 MDP 中的总变差 $V$ 相关的高概率 regret 边界，而非与变化次数 $L$ 相关，以在渐变条件下提升鲁棒性。
扩展 UCRL 框架中的重启机制，引入变分感知的乐观性，从而在非平稳设置中实现更紧致的性能保证。

提出的方法

提出 Variation-aware UCRL，作为 UCRL 与重启机制的变体，其中重启时机基于对奖励和转移概率中总变差 $V$ 的估计来安排。
在不确定性下使用乐观规划，维护奖励和转移概率的置信区间，并通过总变差 $V$ 调整边界。
应用偏差跨度分解，并利用直径 $D$ 来界定乐观策略与真实最优策略之间的差异。
引入一种新颖的分析技术，利用由观测转移构成的可能 MDP 集 $\hat{\mathcal{M}}$，即使在真实 MDP 的直径未知时，也能对偏差跨度 $\tilde{\Lambda}$ 进行边界估计。
通过结合集中不等式与依赖变差的乐观性，推导出 regret 边界，确保只要 $V$ 较小，regret 即为次线性。
建立一个关键引理，表明乐观值估计被限制在 $\tilde{\rho}^0 + V^r_T + D V^p_T$ 之内，其中 $\tilde{\rho}^0$ 是在无变差情况下的乐观值。

实验结果

研究问题

RQ1能否设计一种强化学习算法，在奖励和转移概率随时间变化的 MDP 中，即使变化是渐进而非突变的，也能实现次线性 regret？
RQ2是否可能推导出一个依赖于 MDP 总变差 $V$ 而非变化次数 $L$ 的 regret 边界，以提升在渐变条件下的鲁棒性？
RQ3如何修改 UCRL 算法，以引入变分感知的乐观性与重启调度，从而在非平稳性下保持性能？
RQ4在非平稳 MDP 中，探索与适应之间的根本权衡是什么？如何通过基于变差的边界来捕捉这一权衡？

主要发现

所提出的 Variation-aware UCRL 算法实现了高概率 regret 边界 $\tilde{\mathcal{O}}(V^{1/3}T^{2/3}DS\sqrt{A})$，该边界在 $T$ 和 $V$ 方面为最优。
当 $L$ 较大或变化为渐进时，该边界优于先前 UCRL 重启机制的 $\tilde{\mathcal{O}}(L^{1/3}T^{2/3}DS\sqrt{A})$ 边界。
当变差 $V$ 较小时，即使 $L$ 增长至 $T^{1/3}$，regret 仍保持次线性，而此前的边界在该条件下会变得无用。
分析表明，即使真实 MDP 的直径无界，乐观 MDP 的偏差跨度仍可被 $\hat{D}$（由观测转移构成的可能 MDP 集中的最大直径）所界定。
一个关键技术引理表明，乐观值估计最多为 $\tilde{\rho}^0 + V^r_T + D V^p_T$，其中 $\tilde{\rho}^0$ 是在零变差条件下的乐观值。
本文证明 $\hat{D}$ 无法由真实直径 $D$ 所界定，表明乐观 MDP 集 $\hat{\mathcal{M}}$ 可能包含无界直径的 MDP，因此需要细致的分析。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。