QUICK REVIEW

[论文解读] Model Selection in Contextual Stochastic Bandit Problems

Aldo Pacchiano, My V. T. Phan|arXiv (Cornell University)|Mar 3, 2020

Advanced Bandit Algorithms Research参考文献 20被引用 23

一句话总结

该论文提出了一种用于上下文随机多臂赌博机中模型选择的元算法框架，通过应用一种新颖的平滑变换到基础算法，实现了最优的 $O(\sqrt{T})$ regret 保证。该方法适用于一般类别的基础算法，并在最佳基础算法具有对数 regret 的情况下仍能实现近似最优性能，即使在模型选择的 $\Omega(\sqrt{T})$ 基础下界存在时亦然。

ABSTRACT

We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $Ω(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.

研究动机与目标

解决在上下文随机多臂赌博机中，事先未知候选算法集中最佳算法的问题。
设计一种元算法，能够自适应地在具有高概率 regret 保证的基础算法中进行选择，而无需事先知道最优基础算法的 regret。
建立模型选择性能的理论极限，表明即使某个基础算法具有 $O(\log T)$ 的 regret，$\Omega(\sqrt{T})$ 的 regret 也是不可避免的。
将该框架扩展到诸如模型误设的线性赌博机、未知维度的线性赌博机以及具有未知特征映射的强化学习等问题。
提供一种黑箱兼容的方法，能够在不重新证明或假设稳定性的情况下，保持基础算法的 regret 边界。

提出的方法

引入一种通用的平滑变换，用于赌博机算法，以稳定其性能，并使其适用于对抗性元算法。
采用类似 CORRAL 的元算法，将基础算法视为臂，根据其历史表现进行选择。
在元算法中使用依赖于已知最优基础 regret 的学习率调度，以实现 $O(\sqrt{T})$ 的 regret。
将该框架应用于多种问题，包括模型误设的线性赌博机、未知维度的线性赌博机，以及具有未知特征映射的强化学习。
采用一种高概率 regret 保证框架，其中每个基础算法 $\mathcal{B}_i$ 关联一个推测的 regret 边界 $U_i(t,\delta)$。
证明了在事先不知道最优基础 regret 的情况下，任何元算法的 regret 都可能劣于最优基础算法。

实验结果

研究问题

RQ1当最佳基础算法具有 $O(\log T)$ 的 regret 时，是否可以设计一种元算法，使模型选择在上下文赌博机中实现 $O(\sqrt{T})$ 的 regret？
RQ2是否可能设计一种黑箱元算法，使其适用于任意基础算法，而无需对基础算法的 regret 边界进行稳定性假设或重新证明？
RQ3即使某个基础算法已完美适配，上下文赌博机中模型选择的 regret 的根本极限是什么？
RQ4所提出的框架能否处理具有未知模型参数的问题，如未知维度或未知链接函数？
RQ5平滑变换如何使非稳定的基础算法能够被用于类似 CORRAL 的对抗性元算法中？

主要发现

所提出的元算法在上下文赌博机的模型选择中实现了 $O(\sqrt{T})$ 的 regret，即使最佳基础算法具有 $O(\log T)$ 的 regret，也达到了最优速率。
下界分析表明，即使在渐近意义下，当某个基础算法具有 $O(\log T)$ 的 regret 时，$\Omega(\sqrt{T})$ 的 regret 也是不可避免的。
平滑变换使得标准的随机赌博机算法（如 UCB 和 OFUL）能够被用于对抗性元算法中，而无需稳定性条件。
对于模型误设的线性赌博机，当在 $M$ 个平滑后的 LSVI-UCB 变体中进行选择时，该方法实现了 $\widetilde{\mathcal{O}}(\sqrt{Md^3H^3T})$ 的 regret。
在具有未知链接函数的广义线性赌博机中，通过将每个链接函数视为一个基础算法，该方法实现了 $\widetilde{\mathcal{O}}(\sqrt{|\mathbb{L}|dT})$ 的 regret。
对于具有未知 $\epsilon_*$ 的重尾赌博机，该方法通过使用 $\epsilon_*$ 值的网格和 $\eta = T^{-1/2}$，实现了 $\widetilde{\mathcal{O}}(T^{1-0.5b\epsilon_*})$ 的 regret。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。