QUICK REVIEW

[论文解读] Relative Upper Confidence Bound for the K-Armed Dueling Bandit Problem

Masrour Zoghi, Shimon Whiteson|arXiv (Cornell University)|Dec 12, 2013

Advanced Bandit Algorithms Research参考文献 38被引用 57

一句话总结

本文提出了一种新颖的 K-armed 面对面老虎机（dueling bandit）问题算法——相对置信上界（RUCB），该算法通过使用配对比较概率的乐观估计来选择冠军臂，然后相对于该冠军臂应用标准 UCB 算法，从而扩展了 UCB 方法。RUCB 在无需已知探索时域 T 的情况下，实现了 O(log t) 的有限时间 regret 上界，其理论边界和真实信息检索数据上的实验性能均优于当前最先进的方法。

ABSTRACT

This paper proposes a new method for the K-armed dueling bandit problem, a variation on the regular K-armed bandit problem that offers only relative feedback about pairs of arms. Our approach extends the Upper Confidence Bound algorithm to the relative setting by using estimates of the pairwise probabilities to select a promising arm and applying Upper Confidence Bound with the winner as a benchmark. We prove a finite-time regret bound of order O(log t). In addition, our empirical results using real data from an information retrieval application show that it greatly outperforms the state of the art.

研究动机与目标

为解决现有面对面老虎机算法需要将已知探索时域 T 作为输入所带来的局限性，而这一参数在实际中往往难以估计。
开发一种适用于更广泛场景的 K-armed 面对面老虎机问题算法，避免依赖于严格假设或 regret 上界中较差的乘法常数。
提供适用于所有时间步 t 的有限时间、高概率 regret 上界，而非仅适用于固定时域 T 以内。
通过使用 LETOR 数据集的真实数据，在真实世界的信息检索应用中实证验证该算法的优越性。

提出的方法

RUCB 维护所有臂之间配对比较概率 pij 的乐观估计。
基于这些乐观估计选择一个潜在的冠军臂，识别出最有可能成为 Condorcet 胜者（即在所有其他臂中胜出概率最高的臂）的臂。
然后，该算法以该冠军臂为基准，对后续比较应用标准的上置信界（UCB）选择机制。
使用一个置信参数 α > 0.5 来控制探索程度，实验中采用 α = 0.51 以逼近理论极限。
该方法能够动态适应，无需预设时间时域 T，因此适用于在线、实时应用场景。
理论分析基于集中不等式，用于限制次优选择的概率，从而得出 O(log t) 的 regret 上界。

实验结果

研究问题

RQ1能否设计一种面对面老虎机算法，使其无需将已知探索时域 T 作为输入？
RQ2能否设计一种面对面老虎机算法，实现有限时间 regret 上界为 O(log t)，且其假设条件比现有方法更宽松？
RQ3能否通过使用乐观概率估计，有效将 UCB 风格的算法扩展到相对反馈设置？
RQ4所提出的算法是否在真实世界数据上的 regret 和准确率方面，均优于 SAVAGE 和 BTM 等当前最先进的算法？

主要发现

RUCB 实现了有限时间、高概率的 regret 上界 O(log t)，且该上界对所有时间步 t 均成立，而不同于依赖时域的方法。
RUCB 的 regret 上界所依赖的假设比 Interleaved Filter（IF）和 Beat the Mean（BTM）更宽松，且其乘法常数优于 SAVAGE。
在使用 LETOR 数据集中 64 个排序器的真实实验中，RUCB 在 450 万次迭代内累积的 regret 比 Condorcet SAVAGE 低 5 至 10 倍。
RUCB 在约 20% 的时间下达到更高的准确率水平，表明其收敛速度显著更快。
即使 BTM 在多个时域 T 下运行，RUCB 仍显著优于 BTM，后者需要输入时域 T。
在 100 次独立运行中，该算法表现稳健，所有测试的 K 值（16、32、64）下均一致实现了 regret 和准确率的提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。