QUICK REVIEW

[论文解读] Provably Optimal Algorithms for Generalized Linear Contextual Bandits

Lihong Li, Yun Gang Lu|arXiv (Cornell University)|Feb 28, 2017

Advanced Bandit Algorithms Research被引用 141

一句话总结

本文提出基于 GLM 的 UCB 算法用于具有广义线性奖励的情境赌博，取得接近最优的遗憾界并给出尖锐的有限样本 MLE 置信界。

ABSTRACT

Contextual bandits are widely used in Internet services from news recommendation to advertising, and to Web search. Generalized linear models (logistical regression in particular) have demonstrated stronger performance than linear models in many applications where rewards are binary. However, most theoretical analyses on contextual bandits so far are on linear bandits. In this work, we propose an upper confidence bound based algorithm for generalized linear contextual bandits, which achieves an $ ilde{O}(\sqrt{dT})$ regret over $T$ rounds with $d$ dimensional feature vectors. This regret matches the minimax lower bound, up to logarithmic terms, and improves on the best previous result by a $\sqrt{d}$ factor, assuming the number of arms is fixed. A key component in our analysis is to establish a new, sharp finite-sample confidence bound for maximum-likelihood estimates in generalized linear models, which may be of independent interest. We also analyze a simpler upper confidence bound algorithm, which is useful in practice, and prove it to have optimal regret for certain cases.

研究动机与目标

在超出线性模型的情况下，激发带广义线性奖励的情境赌博。
开发具有强遗憾保证的可证明算法在 GLM 环境中。
为 GLM 最大似然估计提供新的有限样本置信界。
提供一个实用的基于 UCB 的算法以及一个以最优性为导向的变体。

提出的方法

提出 SupCB-GLM，这是一个用于 GLM 情境赌博的上置信界限(UCB)算法，达到 ~O(sqrt(d T)) 遗憾。
推导 GLM MLE 的尖锐有限样本、方向向置信界（非渐近正态性类型结果）。
分析一个简化的 UCB-GLM 算法，在合理条件下实现最优遗憾。
将 SupCB-GLM 作为创建独立样本的实例以实现更紧的分析（受 Auer 2002 启发）。
提供利用自正规化的马尔可夫过程与新颖置信界来绑定遗憾的证明。
讨论计算与实际考虑，包括一个无需投影步骤的更高效变体。

实验结果

研究问题

RQ1我们能否为广义线性情境赌博设计一个上置信界算法，在固定臂情形下达到与极小极大损失率（minimax regret）相当的量级（上限对数因子？）？
RQ2可以为 GLM 最大似然估计量建立哪些有限样本、方向向的置信界以支持紧凑的遗憾分析？
RQ3在高维场景中，基于 GLM 的 UCB 算法与现有 GLM 赌博方法在遗憾方面有何比较？
RQ4一个实用的、简化的 UCB 变体是否能在没有像投影步骤这样的高计算成本下实现近似最优遗憾？
RQ5是否可能构造独立样本基方法（SupCB-GLM），在小动作集下实现接近最优的遗憾？

主要发现

GLM UCB 算法 SupCB-GLM 的遗憾达到 ~O(d sqrt(T))，在对数因子下与无穷行动的极小下界相匹配（并且改进了先前的 GLM 结果）。
为 GLM MLE 证明了一致的尖锐有限样本置信界，在任意方向上成立，从而支持方向特定的遗憾分析。
更简单的 UCB-GLM 算法在合理假设下实现最优遗憾，相比投影方法更实用。
SupCB-GLM 在有限动作集下实现 near-optimal 遗憾 ~O(sqrt(d T log K))，整体界限在对数项内紧致。
分析强调方向向置信界相对于传统的椭圆（l2）界在 GLM 赌博中的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。