Skip to main content
QUICK REVIEW

[论文解读] Optimal Model Selection in Contextual Bandits with Many Classes via Offline Oracles

Sanath Kumar Krishnamurthy, Susan Athey|arXiv (Cornell University)|Jan 1, 2021
Advanced Bandit Algorithms Research参考文献 37被引用 1
一句话总结

本文提出了一种新颖的随机上下文Bandit模型选择的约化方法,将其转化为离线模型选择预言机,从而实现灵活且高效的算法,其计算成本与回归模型选择相当。当存在可实现类时,该方法在对数因子范围内实现了最优的可实现性相关遗憾界,且在温和条件下能自适应未知的最佳类的复杂度。

ABSTRACT

We study the problem of model selection for contextual bandits, in which the algorithm must balance the bias-variance trade-off for model estimation while also balancing the exploration-exploitation trade-off. In this paper, we propose the first reduction of model selection in contextual bandits to offline model selection oracles, allowing for flexible general purpose algorithms with computational requirements no worse than those for model selection for regression. Our main result is a new model selection guarantee for stochastic contextual bandits. When one of the classes in our set is realizable, up to a logarithmic dependency on the number of classes, our algorithm attains optimal realizability-based regret bounds for that class under one of two conditions: if the time-horizon is large enough, or if an assumption that helps with detecting misspecification holds. Hence our algorithm adapts to the complexity of this unknown class. Even when this realizable class is known, we prove improved regret guarantees in early rounds by relying on simpler model classes for those rounds and hence further establish the importance of model selection in contextual bandits.

研究动机与目标

  • 为解决上下文Bandit中的模型选择挑战,其中必须同时权衡偏差-方差与探索-利用的权衡。
  • 将上下文Bandit中模型选择的复杂度约化为离线模型选择预言机,从而支持通用型算法。
  • 在存在可实现类时,实现对最佳模型类的最优遗憾界,并自适应未知的类复杂度。
  • 通过在完全适应前利用更简单的模型类,提升早期回合的性能。

提出的方法

  • 该方法将上下文Bandit中的在线模型选择约化为离线模型选择预言机,利用现有的回归式模型选择技术。
  • 提出了一种新颖的算法框架,根据性能反馈动态地在多个模型类之间进行选择。
  • 通过继承离线模型选择的复杂度,确保计算效率,避免额外开销。
  • 引入了一种模型误设检测机制,以在温和假设下支持自适应能力。
  • 该算法采用基于置信度的选择策略,在保持遗憾最优性的同时平衡探索与利用。

实验结果

研究问题

  • RQ1是否可以在不损失遗憾最优性的情况下,将上下文Bandit中的模型选择约化为离线模型选择预言机?
  • RQ2在何种条件下,算法能够自适应候选类集合中最佳类的复杂度?
  • RQ3如何通过在完全适应前使用更简单的模型类来提升早期回合的性能?
  • RQ4在存在可实现类的情况下,误设检测对遗憾保证有何影响?

主要发现

  • 当存在可实现模型类时,所提出的算法在类的数量上达到对数因子范围内的最优可实现性相关遗憾界。
  • 最优性在两种条件下得以保持:要么时间时域足够长,要么满足误设检测假设。
  • 该算法能够自适应未知的最佳模型类的复杂度,在无需预先知晓最优类的情况下提升性能。
  • 即使可实现类在事前已知,该算法仍通过初始阶段使用更简单的模型,在早期回合中实现了更优的遗憾。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。