Skip to main content
QUICK REVIEW

[论文解读] Adapting to Misspecification in Contextual Bandits

Dylan J. Foster, Claudio Gentile|arXiv (Cornell University)|Jul 12, 2021
Advanced Bandit Algorithms Research被引用 21
一句话总结

本文提出了一类新型的、Oracle高效算法,用于上下文Bandits问题,在有限与无限动作设置下均可自适应未知的模型误设。通过将SquareCB重新诠释为带对数障碍正则化的优化问题,该方法在未知误设水平 $\varepsilon$ 的情况下,实现了线性上下文Bandits的最优后悔界 $\tilde{\mathcal{O}}(d\sqrt{T} + \varepsilon\sqrt{d}T)$,且无需事先知晓 $\varepsilon$,并通过在线回归Oracle支持对抗性选择的上下文。

ABSTRACT

A major research direction in contextual bandits is to develop algorithms that are computationally efficient, yet support flexible, general-purpose function approximation. Algorithms based on modeling rewards have shown strong empirical performance, but typically require a well-specified model, and can fail when this assumption does not hold. Can we design algorithms that are efficient and flexible, yet degrade gracefully in the face of model misspecification? We introduce a new family of oracle-efficient algorithms for $\varepsilon$-misspecified contextual bandits that adapt to unknown model misspecification -- both for finite and infinite action settings. Given access to an online oracle for square loss regression, our algorithm attains optimal regret and -- in particular -- optimal dependence on the misspecification level, with no prior knowledge. Specializing to linear contextual bandits with infinite actions in $d$ dimensions, we obtain the first algorithm that achieves the optimal $O(d\sqrt{T} + \varepsilon\sqrt{d}T)$ regret bound for unknown misspecification level $\varepsilon$. On a conceptual level, our results are enabled by a new optimization-based perspective on the regression oracle reduction framework of Foster and Rakhlin, which we anticipate will find broader use.

研究动机与目标

  • 开发计算高效的上下文Bandits算法,使其在模型误设下依然有效。
  • 将SquareCB约简框架扩展至无限动作集,同时保持最优性与自适应性。
  • 解决线性上下文Bandits中自适应未知误设水平的开放问题。
  • 提供一种通用、灵活的方法,在未知误设水平下性能可平稳退化。

提出的方法

  • 将SquareCB中的动作选择重新诠释为对数障碍正则化优化问题的近似,从而实现向无限动作空间的扩展。
  • 使用在线回归Oracle进行平方损失回归,以保持计算效率与自适应性。
  • 将算法与类似CORRAL的Bandit模型选择过程结合,以自适应未知的误设水平。
  • 采用基于取整的迭代方案,以维持分布支持与次优性间隙控制,计算复杂度被限制在 $\mathcal{O}(d^4|\mathcal{A}|)$ 次操作以内。
  • 提出一种基于优化的新视角来理解回归Oracle约简框架,使其可推广至不可实现情形之外。
  • 通过依赖在线Oracle(强于离线Oracle)支持对抗性选择的上下文,实现更高效的更新。

实验结果

研究问题

  • RQ1我们能否设计一种上下文Bandits算法,在保持最优后悔与计算效率的同时,自适应未知的模型误设?
  • RQ2如何在不牺牲最优性或自适应性的前提下,将SquareCB约简框架扩展至无限动作集?
  • RQ3我们能否在未知 $\varepsilon$ 的前提下,实现对误设水平 $\varepsilon$ 的最优后悔依赖?
  • RQ4是否可能将CORRAL风格的聚合框架推广至无限动作设置,并改进后悔界中的对数因子?

主要发现

  • 所提出的算法在无限动作和未知误设水平 $\varepsilon$ 的线性上下文Bandits中,实现了最优的后悔界 $\tilde{\mathcal{O}}(d\sqrt{T} + \varepsilon\sqrt{d}T)$。
  • 该算法具有Oracle高效性,仅需访问平方损失回归的在线Oracle,且保持对误设水平 $\varepsilon$ 的最优依赖。
  • 通过将动作选择建模为对数障碍正则化优化问题,该方法将SquareCB框架推广至无限动作集。
  • 该算法在误设下性能可平稳退化,并可自适应未知的 $\varepsilon$ 而无需先验知识,从而解决了Lattimore等人(2020)提出的开放问题。
  • 开发了一种CORRAL算法的新变体,其结构更简单、更灵活,且在后悔界中具有改进的对数因子。
  • 总计算复杂度被限制在 $\tilde{\mathcal{O}}(d^4|\mathcal{A}|)$ 次操作以内,稀疏支持表示确保了内存效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。