QUICK REVIEW

[论文解读] Online Stochastic Optimization under Correlated Bandit Feedback

Mohammad Gheshlaghi Azar, Alessandro Lazaric|arXiv (Cornell University)|Feb 4, 2014

Advanced Bandit Algorithms Research参考文献 25被引用 43

一句话总结

本文提出了一种用于在相关性 bandit 反馈下进行在线随机优化的高置信度树（HCT）算法，其中奖励依赖于历史而非独立同分布（i.i.d.）。HCT 采用一种自适应的、乐观的基于树的探索策略，并结合非 i.i.d. 奖励的浓度界限，实现了与最先进方法相当的遗憾界，其对步骤数和光滑度的依赖关系相同，同时要求更弱的光滑度假设，并具有更低的内存复杂度。

ABSTRACT

In this paper we consider the problem of online stochastic optimization of a locally smooth function under bandit feedback. We introduce the high-confidence tree (HCT) algorithm, a novel any-time $\mathcal{X}$-armed bandit algorithm, and derive regret bounds matching the performance of existing state-of-the-art in terms of dependency on number of steps and smoothness factor. The main advantage of HCT is that it handles the challenging case of correlated rewards, whereas existing methods require that the reward-generating process of each arm is an identically and independent distributed (iid) random process. HCT also improves on the state-of-the-art in terms of its memory requirement as well as requiring a weaker smoothness assumption on the mean-reward function in compare to the previous anytime algorithms. Finally, we discuss how HCT can be applied to the problem of policy search in reinforcement learning and we report preliminary empirical results.

研究动机与目标

解决现有 X-armed bandit 算法假设奖励为 i.i.d. 的局限性，而这一假设在许多现实应用场景（如强化学习或自适应系统）中并不成立。
开发一种任意时间算法，能够处理相关反馈（即奖励结果依赖于先前历史），同时保持强理论性能保证。
与以往的任意时间算法相比，降低内存和计算复杂度，特别是在高维或连续动作空间中。
在比先前方法更弱的光滑度假设下（仅关于最大值的 Lipschitz 连续性）提供理论遗憾界，而先前方法要求在最优动作附近的更强局部光滑性。
展示其在马尔可夫决策过程（MDPs）策略搜索中的适用性，为未知环境中强化学习提供有限样本保证。

提出的方法

HCT 在动作空间 X 上构建一棵二叉树，其中每个节点代表一个动作区域，并维护该区域内潜在最大奖励的置信上界。
该算法根据置信阈值逐步扩展节点：仅当其估计的平均奖励足够准确时才扩展节点，从而确保高效的探索。
它使用一种针对非 i.i.d. 轮次随机变量的新浓度不等式，以在温和的遍历性和混合性假设下界估计误差。
树以一种乐观的方式构建，优先选择置信上界较高的节点，类似于 HOO，但已适配以处理相关反馈。
该算法通过根据拉取次数和方差估计值，动态平衡探索与利用，优先细化置信上界较高的节点。
空间复杂度通过深度相关的节点计数和高概率事件进行有界控制，实现 O(n^{d/(d+2)}(log n)^{2/(d+2)}) 的内存使用，该复杂度为次线性，对大规模问题具有优势。

实验结果

研究问题

RQ1是否存在一种任意时间 X-armed bandit 算法，能在相关性 bandit 反馈下实现次线性遗憾，其中奖励并非 i.i.d.？
RQ2所提出的 HCT 算法在处理相关反馈时，是否仍能保持与最先进 i.i.d.-based 方法相当的遗憾界？
RQ3与先前方法相比，该算法是否能在更弱的光滑度假设下运行——特别是仅要求关于最大奖励的 Lipschitz 连续性？
RQ4HCT 的内存和时间复杂度是多少？与现有任意时间算法相比，其可扩展性如何？
RQ5HCT 是否能有效应用于马尔可夫决策过程（MDPs）中的策略搜索，特别是在连续状态-动作空间中，并提供有限样本性能保证？

主要发现

即使在相关反馈下，HCT 仍实现了与最先进方法相当的遗憾界，其对步骤数 n 和近似最优维数 d 的依赖关系保持一致。
该算法仅需均值奖励函数关于最大值的 Lipschitz 连续性，这一假设比以往任意时间算法所要求的更弱。
HCT 的空间复杂度为 O(n^{d/(d+2)}(log n)^{2/(d+2)})，为次线性，且在内存效率上优于以往的任意时间算法。
运行时间复杂度为线性对数型，使 HCT 适用于大规模和流式数据应用。
理论分析包括在温和遍历性和混合条件下，针对非 i.i.d. 轮次过程的新浓度不等式。
初步的实证结果表明，HCT 在 MDP 策略搜索中具有优势，表明其在具有相关反馈的强化学习场景中具有实际优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。