QUICK REVIEW

[论文解读] Thompson Sampling for Learning Parameterized Markov Decision Processes

Aditya Gopalan, Shie Mannor|arXiv (Cornell University)|Jun 29, 2014

Advanced Bandit Algorithms Research参考文献 24被引用 23

一句话总结

该论文提出将Thompson Sampling应用于参数化马尔可夫决策过程（MDP），其中转移概率和奖励由低维参数控制。该研究建立了频率学派的遗憾边界，表明即使在不使用共轭先验或乘积形式先验的情况下，次优动作被选择的次数也以高概率呈对数增长，且常数因子通过参数空间的Kullback-Leibler几何结构编码了信息复杂度。

ABSTRACT

We consider reinforcement learning in parameterized Markov Decision Processes (MDPs), where the parameterization may induce correlation across transition probabilities or rewards. Consequently, observing a particular state transition might yield useful information about other, unobserved, parts of the MDP. We present a version of Thompson sampling for parameterized reinforcement learning problems, and derive a frequentist regret bound for priors over general parameter spaces. The result shows that the number of instants where suboptimal actions are chosen scales logarithmically with time, with high probability. It holds for prior distributions that put significant probability near the true model, without any additional, specific closed-form structure such as conjugate or product-form priors. The constant factor in the logarithmic scaling encodes the information complexity of learning the MDP in terms of the Kullback-Leibler geometry of the parameter space.

研究动机与目标

解决当MDP结构由一组未知小参数控制时，强化学习中高效探索的挑战。
开发一种基于Thompson Sampling的算法，利用状态转移之间参数的相关性以提高学习效率。
为一般参数化MDP中的Thompson Sampling推导出频率学派的遗憾边界，而无需依赖如共轭性等特定先验结构。
通过参数空间的Kullback-Leibler几何结构量化学习MDP的信息复杂度。
证明即使在大规模状态空间中，当先验集中在真实参数附近时，次优动作的选择次数也随时间对数增长。

提出的方法

该算法在以访问参考状态为标志的周期内运行，每个周期从后验分布中采样一个参数，并在整个周期内执行该样本的最优策略。
在每个周期后，通过贝叶斯更新方法结合观测到的奖励和转移，对参数空间中的后验分布进行细化。
采用一种新颖的基于样本路径的集中性分析，以边界经验奖励与期望值之间的偏差，利用马尔可夫性质和更新-奖励定理。
通过将累积遗憾分解为周期贡献，并利用尾部不等式和随机支配关系来界定期望偏差，推导出遗憾边界。
对数遗憾缩放中的常数因子被表征为一个优化问题的解，该问题涉及真实MDP与候选模型之间的加权Kullback-Leibler散度。
该分析将学习问题的信息复杂度与参数空间的几何结构联系起来，特别是通过边际KL散度。

实验结果

研究问题

RQ1在不依赖共轭或乘积形式先验的情况下，Thompson Sampling能否在参数化MDP中实现对数遗憾？
RQ2参数空间的结构，特别是其Kullback-Leibler几何结构，如何影响MDP中Thompson Sampling的遗憾缩放？
RQ3在参数化设定下，观察单个状态转移在多大程度上能帮助学习未观测部分的MDP？
RQ4后验采样频率（周期长度）在参数化MDP中如何平衡探索与利用？
RQ5通过KL散度衡量的MDP信息复杂度，如何影响遗憾边界中的常数因子？

主要发现

即使在一般参数空间和非共轭先验下，次优动作被选择的次数也以高概率随时间对数增长。
遗憾边界为 $ O\big(\big(\frac{T}{\bar{\tau}_{c^{\bullet}}}\big)^{1/2} \big( \frac{\tau_{\text{max}}}{\bar{\tau}_{c^{\bullet}}} \big)^{1/2} \big) $，其中 $ \bar{\tau}_{c^{\bullet}} $ 是最优策略的期望周期长度。
对数遗憾缩放中的常数因子由一个涉及真实MDP与备选模型之间加权Kullback-Leibler散度的优化问题决定。
学习MDP的信息复杂度自然地通过参数空间的Kullback-Leibler几何结构编码，反映了状态转移之间的结构性依赖。
当参数空间维度较低时，即使状态空间很大，该算法相比平坦Bandit方法也实现了显著改进的遗憾缩放。
该分析首次为不依赖闭式先验结构的MDP中Thompson Sampling建立了依赖差距、依赖问题的遗憾边界。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。