QUICK REVIEW

[论文解读] Best arm identification in multi-armed bandits with delayed feedback

Aditya Grover, Todor Markov|arXiv (Cornell University)|Mar 31, 2018

Advanced Bandit Algorithms Research被引用 4

一句话总结

本文提出了一种在具有延迟反馈的随机多臂赌博机中进行最优臂识别的框架，通过利用在完整反馈之前到达的部分反馈，提出高效算法，利用有偏或无偏的部分反馈估计器，并将其扩展到并行赌博机设置，在超参数调优和策略搜索等实际应用中显著优于基线方法。

ABSTRACT

We propose a generalization of the best arm identification problem in stochastic multi-armed bandits (MAB) to the setting where every pull of an arm is associated with delayed feedback. The delay in feedback increases the effective sample complexity of standard algorithms, but can be offset if we have access to partial feedback received before a pull is completed. We propose a general framework to model the relationship between partial and delayed feedback, and as a special case we introduce efficient algorithms for settings where the partial feedback are biased or unbiased estimators of the delayed feedback. Additionally, we propose a novel extension of the algorithms to the parallel MAB setting where an agent can control a batch of arms. Our experiments in real-world settings, involving policy search and hyperparameter optimization in computational sustainability domains for fast charging of batteries and wildlife corridor construction, demonstrate that exploiting the structure of partial feedback can lead to significant improvements over baselines in both sequential and parallel MAB.

研究动机与目标

解决由于随机多臂赌博机中延迟反馈导致的最优臂识别样本复杂度增加的问题。
以一种通用且可分析的方式建模部分反馈（提前到达）与延迟完整反馈（后到达）之间的关系。
开发利用部分反馈估计器（有偏与无偏）以提高样本效率的高效算法。
将所提出的框架扩展到并行多臂赌博机设置，其中多个臂可同时被拉动。
在涉及超参数优化和策略搜索的实际计算可持续性应用中，对方法进行实证验证。

提出的方法

提出一种通用的反馈模型，捕捉多臂赌博机中部分反馈与延迟完整反馈之间的时序关系。
引入一种新颖的算法框架，将部分反馈作为代理观测值，以减少有效样本复杂度。
为部分反馈是真实臂奖励的无偏或有偏估计器的场景设计特定算法。
将核心算法适配到并行赌博机设置，支持批量臂拉动的同时保持理论保证。
采用同时考虑部分反馈和延迟反馈的置信区间与采样规则，以确保正确识别最优臂。
采用统一的分析框架，对在延迟反馈下利用部分反馈时的样本复杂度进行上界分析。

实验结果

研究问题

RQ1如何利用在完整反馈之前到达的部分反馈，以减少在延迟反馈下最优臂识别的样本复杂度？
RQ2在延迟反馈赌博机设置中，使用有偏与无偏部分反馈估计器在理论和实证上分别有何优势？
RQ3所提出的框架能否扩展到多个臂同时被拉动的并行多臂赌博机设置？
RQ4在实际应用中，所提出方法与标准基线相比，在样本效率和收敛速度方面表现如何？
RQ5反馈结构（特别是部分反馈的到达时机和质量）对实际领域（如超参数调优和策略搜索）中最优臂识别算法性能有何影响？

主要发现

所提出的框架通过利用部分反馈（即使是有偏的）显著降低了有效样本复杂度。
利用部分反馈的算法在顺序和并行多臂赌博机设置中均优于标准基线。
在快速电池充电和野生动物走廊建设等实际应用中，该方法实现了更快的收敛速度和更高的样本效率。
使用无偏部分反馈估计器可获得更紧的置信区间，从而提升识别准确性。
算法的并行扩展在保持理论保证的同时支持批量探索，这对可扩展的超参数优化至关重要。
实证结果表明，反馈结构（特别是部分反馈的到达时机和质量）对算法性能有显著影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。