QUICK REVIEW
[论文解读] A Survey on Contextual Multi-armed Bandits
Li Zhou|arXiv (Cornell University)|Aug 13, 2015
Advanced Bandit Algorithms Research参考文献 16被引用 86
一句话总结
本综述全面概述了上下文多臂赌博机,涵盖随机与对抗性设置、线性与核化模型,以及 LinUCB、EXP4 和 GP-UCB 等算法。它为各种方法建立了遗憾边界,并讨论了约简技术,为在具有上下文相关奖励的局部反馈下进行策略学习提供了一个统一框架。
ABSTRACT
In this survey we cover a few stochastic and adversarial contextual bandit algorithms. We analyze each algorithm's assumption and regret bound.
研究动机与目标
- 为在随机与对抗性奖励设定下,系统性地回顾上下文赌博机算法。
- 通过遗憾边界分析关键算法的理论性能,区分问题无关与问题相关情形。
- 探索将上下文赌博机约简为分类问题或 K-臂赌博机的技术,以实现更广泛的应用。
- 考察辅助信息(上下文)在部分反馈下改善决策制定中的作用。
- 讨论离线评估中的挑战,以及在评估策略时使用逆倾向评分与无偏估计器的方法。
提出的方法
- 通过将观测到的奖励除以选择概率,使用无偏奖励估计器来纠正部分反馈的影响。
- 当上下文有限时,将上下文赌博机约简为 K-臂赌博机,将每个上下文视为独立的赌博机实例。
- 在具有专家建议的对抗性设置中应用 EXP4 和 EXP4.P,通过策略加权平均来处理。
- 在可线性实现的设定下使用 LinUCB 和 SupLinUCB,通过岭回归与置信区间平衡探索与利用。
- 通过核方法与后验方差最大化,使用 GP-UCB 和 KernelUCB 处理由非线性上下文构成的问题。
- 引入 VE(价值估计)算法,通过从部分上下文中学习策略并在此基础上应用 EXP4,实现探索与利用的结合。
实验结果
研究问题
- RQ1在随机与对抗性奖励假设下,不同上下文赌博机算法的表现如何?
- RQ2线性、核化与基于策略的上下文赌博机算法的理论遗憾边界是什么?
- RQ3如何在保持性能保证的前提下,将上下文赌博机约简为更简单的赌博机或分类问题?
- RQ4策略集合的复杂度(例如 VC 维)对对抗性上下文赌博机中遗憾的影响是什么?
- RQ5当记录策略与目标策略不同时,如何实现无偏的离线策略评估?
主要发现
- 在可线性实现的条件下,LinUCB 达到了 $ O(d\big(\text{polylog}(T)\big)) $ 的遗憾边界,其中 $ d $ 为上下文维度。
- EXP4.P 在对抗性设置下,即使在 $ N $ 个策略下,也能以高概率实现 $ O\big(\big(\text{polylog}(N/\theta)\big)\big) $ 的遗憾边界。
- GP-UCB 与 KernelUCB 实现了 $ \tilde{O}(\sqrt{T} \cdot (B\sqrt{\gamma_T} + \gamma_T)) $ 的遗憾边界,其中 $ \gamma_T $ 为最大信息增益。
- VE 算法在高概率保证下,对 VC 维为 $ d $ 的策略集合实现了 $ O\big(\sqrt{T(d\ln(T/d) + \ln(1/\delta))}\big) $ 的遗憾边界。
- Epoch-Greedy 在有利设置下实现了 $ O(\ln T) $ 的问题相关遗憾边界,优于其问题无关边界。
- 通过逆倾向评分(IPS)可实现无偏的离线评估,尤其在记录策略随机选择动作时效果更佳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。