[论文解读] Model Selection for Contextual Bandits
本文提出了一种线性上下文Bandit模型选择算法,其遗憾度为 $˜{O}(T^{2/3}d^{1/3}_{m^igstar})$,且无需事先知道最优策略维度 $d_{m^igstar}$,该结果得益于一种收敛速度优于标准参数学习的新型间隙估计器。这是首个在部分反馈设置下,针对上下文Bandit问题的非平凡模型选择结果。
We introduce the problem of model selection for contextual bandits, where a learner must adapt to the complexity of the optimal policy while balancing exploration and exploitation. Our main result is a new model selection guarantee for linear contextual bandits. We work in the stochastic realizable setting with a sequence of nested linear policy classes of dimension $d_1 < d_2 < \ldots$, where the $m^\star$-th class contains the optimal policy, and we design an algorithm that achieves $ ilde{O}l(T^{2/3}d^{1/3}_{m^\star})$ regret with no prior knowledge of the optimal dimension $d_{m^\star}$. The algorithm also achieves regret $ ilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$, which is optimal for $d_{m^{\star}}\geq{}\sqrt{T}$. This is the first model selection result for contextual bandits with non-vacuous regret for all values of $d_{m^\star}$, and to the best of our knowledge is the first positive result of this type for any online learning setting with partial information. The core of the algorithm is a new estimator for the gap in the best loss achievable by two linear policy classes, which we show admits a convergence rate faster than the rate required to learn the parameters for either class.
研究动机与目标
- 解决最优策略复杂度未知的上下文Bandit问题中的模型选择问题。
- 设计一种能够自适应地匹配最优策略真实复杂度的算法,且无需事先知晓其维度。
- 在所有最优维度 $d_{m^\bigstar}$ 的取值下,实现非平凡的遗憾界。
- 在任意具有部分信息的在线学习设置中,首次提供模型选择的保证。
提出的方法
- 该算法在嵌套的线性策略类($d_1 < d_2 < \ldots$)构成的随机可实现设定下运行。
- 使用一种新型估计器,用于估计相邻策略类之间最小可实现损失的差距。
- 该间隙估计器的收敛速度优于学习任一策略类参数所需的速度。
- 算法根据估计的间隙动态选择策略类,实现探索与利用的平衡。
- 在不依赖 $d_{m^\bigstar}$ 的情况下,实现了 $\tilde{O}(T^{2/3}d^{1/3}_{m^\bigstar})$ 的遗憾度,且当 $d_{m^\bigstar} \geq \sqrt{T}$ 时,遗憾度为 $\tilde{O}(T^{3/4} + \sqrt{Td_{m^\bigstar}})$。
- 该方法确保了在所有 $d_{m^\bigstar}$ 取值下的非平凡遗憾度,包括小规模和大规模情形。
实验结果
研究问题
- RQ1在未知最优策略维度的情况下,能否在上下文Bandit问题中实现模型选择?
- RQ2当最优策略位于一个复杂度未知的嵌套线性类序列中时,可实现的遗憾界是什么?
- RQ3能否设计一种模型选择算法,使其在所有 $d_{m^\bigstar}$ 取值下均具有非平凡的遗憾度?
- RQ4在此设定下,策略类之间的间隙估计器是否可能比参数学习估计器收敛得更快?
- RQ5所提出的方法在 $d_{m^\bigstar}$ 较大时(如 $d_{m^\bigstar} \geq \sqrt{T}$)是否能达到最优遗憾度?
主要发现
- 该算法在不事先知道最优维度 $d_{m^\bigstar}$ 的情况下,实现了 $\tilde{O}(T^{2/3}d^{1/3}_{m^\bigstar})$ 的遗憾度。
- 当 $d_{m^\bigstar} \geq \sqrt{T}$ 时,遗憾度 $\tilde{O}(T^{3/4} + \sqrt{Td_{m^\bigstar}})$ 是最优的。
- 所提出的间隙估计器收敛速度优于学习策略类参数所需的速度。
- 这是首个在所有 $d_{m^\bigstar}$ 取值下均实现非平凡遗憾度的上下文Bandit模型选择结果。
- 该结果也是首个在任意具有部分信息的在线学习设置中实现正向模型选择保证的工作。
- 该方法为未知策略复杂度的线性上下文Bandit问题中的自适应学习设立了新的基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。