[论文解读] Contextual Dueling Bandits
本文提出了上下文双人对抗Bandits框架,引入了冯·诺依曼胜者——一种在成对对抗中以至少50%的概率随机击败或打成平局的其他任何策略的随机策略——作为稳健的解概念,该概念始终存在,与条件优胜者不同,后者可能在大规模策略空间中不存在。作者提出了三种高效算法——SparringFPL、ProjectedGD,以及使用分类查询的变体——在时间与空间复杂度对策略空间大小对数依赖的前提下,实现了低遗憾,从而支持在相对反馈下对大规模策略空间进行可扩展的在线与批量学习。
We consider the problem of learning to choose actions using contextual information when provided with limited feedback in the form of relative pairwise comparisons. We study this problem in the dueling-bandits framework of Yue et al. (2009), which we extend to incorporate context. Roughly, the learner's goal is to find the best policy, or way of behaving, in some space of policies, although "best" is not always so clearly defined. Here, we propose a new and natural solution concept, rooted in game theory, called a von Neumann winner, a randomized policy that beats or ties every other policy. We show that this notion overcomes important limitations of existing solutions, particularly the Condorcet winner which has typically been used in the past, but which requires strong and often unrealistic assumptions. We then present three efficient algorithms for online learning in our setting, and for approximating a von Neumann winner from batch-like data. The first of these algorithms achieves particularly low regret, even when data is adversarial, although its time and space requirements are linear in the size of the policy space. The other two algorithms require time and space only logarithmic in the size of the policy space when provided access to an oracle for solving classification problems on the space.
研究动机与目标
- 为解决双人对抗Bandits中条件优胜者概念的局限性,该概念依赖于强传递性假设,且在大规模策略空间中可能不存在。
- 基于博弈论原理,设计一种不依赖严格假设、始终保证存在的通用解概念。
- 为上下文双人对抗Bandits设计高效在线与批量学习算法,使其在大规模或无限策略空间中仍能有效扩展。
- 在对抗性设置下实现低遗憾,同时通过策略空间大小的对数依赖保持计算可行性。
- 即使反馈仅限于成对比较,也能实现与监督学习相当的灵活策略设计。
提出的方法
- 提出冯·诺依曼胜者作为解概念:一种在成对对抗中以至少50%的概率击败或打成平局任何其他策略的随机策略。
- 引入SparringFPL,一种完全在线的算法,通过以对打方式运行两个FPL算法副本,利用扰动累积损失来近似冯·诺依曼胜者。
- 采用ProjectedGD,一种在线投影梯度下降方法,通过梯度步长维护策略向量,并使用近似投影确保可行性。
- 设计近似投影过程ApproxProject,通过迭代最优响应更新计算接近真实投影的向量,其误差受初始猜测与迭代次数的函数有界。
- 利用分类查询实现算法中的argmin操作,使时间与空间复杂度在策略空间大小上对数依赖。
- 通过优化超参数(如学习率、扰动尺度),实现ε-近似解,具有高概率与低遗憾界。
实验结果
研究问题
- RQ1能否为上下文双人对抗Bandits定义一种始终存在的稳健解概念,即使在条件优胜者不存在时也成立?
- RQ2如何设计在线学习算法,使其在具有相对反馈的上下文双人对抗Bandits设置下实现低遗憾?
- RQ3能否构建可高效扩展至大规模策略空间的算法,避免对|Π|的线性依赖?
- RQ4仅使用分类查询且在策略空间大小上实现对数复杂度的算法,其理论遗憾界能达到何种程度?
- RQ5如何高效计算近似投影,同时在在线优化中保持收敛性保证?
主要发现
- 冯·诺依曼胜者在任何双人对抗Bandits设置中均保证存在,提供了一种稳健且通用的解概念,无需传递性或条件优胜者假设。
- SparringFPL即使在对抗性数据下也能实现低遗憾,但其时间与空间复杂度在策略空间大小上线性增长。
- ProjectedGD通过O(K⁸/ε⁴)次查询实现紧凑博弈公式下的ε-近似解,支持策略空间大小对数依赖的高效学习。
- 近似投影过程ApproxProject通过α = 8/√Nin确保误差有界,从而在投影梯度下降框架中实现稳定且精确的更新。
- 通过合理参数调优,SparringFPL与ProjectedGD均能以高概率实现ε-近似解,证明了可扩展上下文双人对抗Bandits的理论可行性。
- 通过利用分类查询,算法实现了低遗憾与可扩展性,使其在信息检索与推荐系统等大规模应用中具有实际可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。