QUICK REVIEW

[论文解读] A Survey on Contextual Multi-armed Bandits

Li Zhou|arXiv (Cornell University)|Aug 13, 2015

Advanced Bandit Algorithms Research参考文献 16被引用 86

一句话总结

本综述全面概述了上下文多臂赌博机，涵盖随机与对抗性设置、线性与核化模型，以及 LinUCB、EXP4 和 GP-UCB 等算法。它为各种方法建立了遗憾边界，并讨论了约简技术，为在具有上下文相关奖励的局部反馈下进行策略学习提供了一个统一框架。

ABSTRACT

In this survey we cover a few stochastic and adversarial contextual bandit algorithms. We analyze each algorithm's assumption and regret bound.

研究动机与目标

在可线性实现的条件下，LinUCB 达到了 $ O(d\big(\text{polylog}(T)\big)) $ 的遗憾边界，其中 $ d $ 为上下文维度。
EXP4.P 在对抗性设置下，即使在 $ N $ 个策略下，也能以高概率实现 $ O\big(\big(\text{polylog}(N/\theta)\big)\big) $ 的遗憾边界。
GP-UCB 与 KernelUCB 实现了 $ \tilde{O}(\sqrt{T} \cdot (B\sqrt{\gamma_T} + \gamma_T)) $ 的遗憾边界，其中 $ \gamma_T $ 为最大信息增益。
VE 算法在高概率保证下，对 VC 维为 $ d $ 的策略集合实现了 $ O\big(\sqrt{T(d\ln(T/d) + \ln(1/\delta))}\big) $ 的遗憾边界。
Epoch-Greedy 在有利设置下实现了 $ O(\ln T) $ 的问题相关遗憾边界，优于其问题无关边界。
通过逆倾向评分（IPS）可实现无偏的离线评估，尤其在记录策略随机选择动作时效果更佳。

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。