QUICK REVIEW

[论文解读] On Kernelized Multi-armed Bandits

Sayak Ray Chowdhury, Aditya Gopalan|arXiv (Cornell University)|Apr 3, 2017

Advanced Bandit Algorithms Research参考文献 24被引用 23

一句话总结

本文提出了 IGP-UCB 和 GP-Thompson Sampling (GP-TS) 两种基于高斯过程的新算法，用于连续动作集的随机多臂老虎机问题，通过利用无限维鞅的自归一化集中不等式，实现了更优的遗憾界。主要贡献在于相较于 GP-UCB 实现了阶次量级的遗憾改进，并首次为具有 RKHS 结构的非参数老虎机问题中的 Thompson Sampling 建立了已知的遗憾界。

ABSTRACT

We consider the stochastic bandit problem with a continuous set of arms, with the expected reward function over the arms assumed to be fixed but unknown. We provide two new Gaussian process-based algorithms for continuous bandit optimization-Improved GP-UCB (IGP-UCB) and GP-Thomson sampling (GP-TS), and derive corresponding regret bounds. Specifically, the bounds hold when the expected reward function belongs to the reproducing kernel Hilbert space (RKHS) that naturally corresponds to a Gaussian process kernel used as input by the algorithms. Along the way, we derive a new self-normalized concentration inequality for vector- valued martingales of arbitrary, possibly infinite, dimension. Finally, experimental evaluation and comparisons to existing algorithms on synthetic and real-world environments are carried out that highlight the favorable gains of the proposed strategies in many cases.

研究动机与目标

解决在未知奖励函数下对连续动作集进行序列优化的挑战。
通过优化置信区间和探索策略，改进核化多臂老虎机中的遗憾性能。
开发一种具有理论遗憾保证的非参数 Thompson Sampling 变体。
建立适用于无限维向量值鞅的新型自归一化集中不等式。
在合成数据和真实世界场景中，通过实验验证所提算法相较于现有基于 GP 的方法的性能。

提出的方法

提出 IGP-UCB 作为 GP-UCB 的变体，通过改进后验方差更新方式，显著减小了置信区间的宽度。
推导出适用于无限维向量值鞅的新型自归一化集中不等式，推广了有限维结果。
提出 GP-Thompson Sampling (GP-TS)，一种专为具有 RKHS 结构的连续老虎机问题设计的非参数 Thompson Sampling 算法。
使用已知核函数的高斯过程先验来建模未知奖励函数，并通过递归方式更新信念。
采用矩阵求逆引理的递推更新规则，以保持计算效率。
IGP-UCB 基于上置信界选择动作，GP-TS 基于后验抽样选择动作，两者均基于 GP 后验分布进行决策。

实验结果

研究问题

RQ1是否可以通过减小 GP-UCB 中的置信区间宽度，实现连续动作集老虎机问题中更优的可证明遗憾界？
RQ2在具有 RKHS 结构奖励函数的非参数、无偏设置下，能否为 Thompson Sampling 推导出遗憾界？
RQ3分析核化老虎机问题中无限维后验不确定性时，需要何种新型集中不等式？
RQ4在遗憾和鲁棒性方面，所提算法与现有基于 GP 的老虎机方法相比表现如何？
RQ5模型误设对 IGP-UCB 和 GP-TS 性能有何影响？

主要发现

IGP-UCB 通过更精细的分析减小置信区间宽度，在遗憾界上实现了阶次量级的改进，优于 GP-UCB。
GP-Thompson Sampling 实现了 Õ(γ_T√(dT)) 的遗憾界，这是在无偏非参数老虎机设置下首次为 Thompson Sampling 建立的此类遗憾界。
所提出的无限维鞅自归一化集中不等式在推导遗憾界中起到关键作用，且可能具有更广泛的理论应用潜力。
实验评估表明，IGP-UCB 和 GP-TS 在合成环境和真实世界环境中均优于现有基于 GP 的算法，累积遗憾更小。
两种算法在模型误设下仍表现出鲁棒性能，表明其在现实场景中具备实际可行性，超越理想化假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。