QUICK REVIEW

[论文解读] Adapting multi-armed bandits policies to contextual bandits scenarios

David Cortés‐Polo|arXiv (Cornell University)|Nov 11, 2018

Advanced Bandit Algorithms Research参考文献 30被引用 25

一句话总结

该论文将多臂赌博机（MAB）策略——特别是自适应贪婪法、UCB和Thompson采样——通过使用逻辑回归作为黑箱预言机，适配到具有二值奖励的上下文赌博机中。它引入了可扩展的自助采样和近似自助采样技术，表明在多个数据集上，上下文自适应贪婪法在累积奖励方面优于其他方法，且仅需极少的超参数调优。

ABSTRACT

This work explores adaptations of successful multi-armed bandits policies to the online contextual bandits scenario with binary rewards using binary classification algorithms such as logistic regression as black-box oracles. Some of these adaptations are achieved through bootstrapping or approximate bootstrapping, while others rely on other forms of randomness, resulting in more scalable approaches than previous works, and the ability to work with any type of classification algorithm. In particular, the Adaptive-Greedy algorithm shows a lot of promise, in many cases achieving better performance than upper confidence bound and Thompson sampling strategies, at the expense of more hyperparameters to tune.

研究动机与目标

弥合成功的多臂赌博机（MAB）策略与具有二值奖励的上下文赌博机之间的差距。
开发可扩展且实用的MAB策略适配方法，避免先前上下文赌博机方法的计算不可行性。
评估监督学习算法能否作为上下文赌博机策略的有效黑箱预言机。
评估在真实世界数据集场景中，超参数调优、模型重训练策略和探索技术的影响。
在现实、大规模多标签数据集上，将适配后的MAB策略与基线方法和上下文无关策略进行性能比较。

提出的方法

通过使用逻辑回归作为黑箱预言机，从上下文预测臂的奖励，将UCB、Thompson采样和自适应贪婪法等MAB策略适配为上下文赌博机。
采用自助采样和近似自助采样技术，估计UCB风格探索所需的不确定性，实现无需完整模型重训练的可扩展置信区间。
通过随机重采样模拟Thompson采样，利用分类模型预测实现计算开销极小的贝叶斯风格探索。
应用MAB-first技术初始化策略，使用固定阈值或百分位数规则，在早期轮次中平衡探索与利用。
评估预言机的完整模型重训练和小批量更新策略，每50轮进行一次重训练以保持预测准确性。
在不同数据集上通过经验方式设定超参数：例如，自助采样方法使用10次重采样，UCB使用80%置信区间，ε-贪婪变体使用衰减率。

实验结果

研究问题

RQ1是否能够通过分类预言机有效将成熟的多臂赌博机策略适配到具有二值奖励的上下文赌博机中？
RQ2自助采样和近似自助采样技术在可扩展性和性能方面与传统上下文赌博机算法相比如何？
RQ3在多样化的多标签数据集上，上下文自适应贪婪法是否在累积奖励方面优于标准基线和其他适配后的MAB策略？
RQ4超参数调优和模型重训练策略（完整重训练 vs. 小批量更新）对策略性能有何影响？
RQ5当集成到自适应贪婪策略中时，主动学习启发式方法是否能提升性能？

主要发现

在所有评估的数据集中，上下文自适应贪婪法实现了最高的累积奖励，优于UCB、Thompson采样和ε-贪婪基线。
自适应贪婪法在超参数数量上少于UCB和Thompson采样，表现出较强性能，尽管需要仔细设置阈值。
自助采样和近似自助采样技术实现了可扩展的UCB和Thompson采样适配，避免了如LinUCB等方法的计算不可行性。
每50轮进行完整模型重训练显著优于小批量更新策略，后者甚至未能超越上下文无关的最佳臂选择性能。
对上下文自适应贪婪法集成主动学习增强并未带来可测量的性能提升，表明固定阈值优于动态百分位数。
使用固定超参数（如a=3, b=7, m=2）的MAB-first技术对性能有显著影响，表明尽管实验中未完全优化，调优仍至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。