Skip to main content
QUICK REVIEW

[论文解读] On Finding the Largest Mean Among Many

Kevin Jamieson, Matthew Malloy|arXiv (Cornell University)|Jun 17, 2013
Advanced Bandit Algorithms Research参考文献 12被引用 22
一句话总结

本文提出PRISM,一种新颖的自适应算法,用于在多臂赌博机设置中以线性样本复杂度识别最佳臂(均值最大者),适用于广泛的均值分布。研究证明,即使在间隙递减的非稀疏情况下,自适应策略也能实现O(n)的样本复杂度,而非自适应方法可能需要更多多项式样本——对于α > 0,最多达Ω(n²α+1)——展示了显著的效率差距。

ABSTRACT

Sampling from distributions to find the one with the largest mean arises in a broad range of applications, and it can be mathematically modeled as a multi-armed bandit problem in which each distribution is associated with an arm. This paper studies the sample complexity of identifying the best arm (largest mean) in a multi-armed bandit problem. Motivated by large-scale applications, we are especially interested in identifying situations where the total number of samples that are necessary and sufficient to find the best arm scale linearly with the number of arms. We present a single-parameter multi-armed bandit model that spans the range from linear to superlinear sample complexity. We also give a new algorithm for best arm identification, called PRISM, with linear sample complexity for a wide range of mean distributions. The algorithm, like most exploration procedures for multi-armed bandits, is adaptive in the sense that the next arms to sample are selected based on previous samples. We compare the sample complexity of adaptive procedures with simpler non-adaptive procedures using new lower bounds. For many problem instances, the increased sample complexity required by non-adaptive procedures is a polynomial factor of the number of arms.

研究动机与目标

  • 确定最佳臂识别的样本复杂度与臂的数量呈线性增长的条件。
  • 开发一种自适应算法,使其在一大类均值分布下实现线性样本复杂度。
  • 量化自适应与非自适应采样策略在样本复杂度方面的差距。
  • 为最佳臂识别中的自适应与非自适应过程建立紧致的下界。

提出的方法

  • 提出一种单参数均值分布模型,以α为参数,其中μ₀ − μᵢ = (i/n)α,涵盖从稀疏(α = 0)到非稀疏(α > 0)的范围。
  • 提出PRISM,一种基于先前采样结果选择臂的自适应算法,以高效识别最佳臂。
  • 使用Hoeffding不等式和联合界分析经验均值估计的误差概率。
  • 推导出非自适应的下界,表明样本复杂度在特定问题实例下为Ω(H log n)和Ω(Hn)。
  • 为任意失败概率≤ δ的程序建立自适应下界Ω(H log(1/δ))。
  • 分析最小间隙Δ₁对非自适应复杂度的影响,表明其在非自适应设置中主导查询复杂度。

实验结果

研究问题

  • RQ1在何种均值分布条件下,最佳臂识别的样本复杂度与臂的数量呈线性增长?
  • RQ2即使均值之间的间隙随n减小,自适应采样策略是否仍能实现线性样本复杂度?
  • RQ3在样本复杂度方面,非自适应方法相比自适应方法差多少?
  • RQ4非自适应最佳臂识别的样本复杂度的最紧致下界是什么?
  • RQ5均值分布模型中的参数α如何影响自适应性与样本效率之间的权衡?

主要发现

  • PRISM实现O(H log(1/δ))的样本复杂度,在包括α ∈ (0, 1/2)的非稀疏情况在内的广泛均值分布下,n呈线性增长。
  • 对于非自适应程序,样本复杂度为Ω(H log n),在α > 0时可能高达Ω(Hn),表明与自适应方法相比存在多项式差距。
  • 在非稀疏设置中,当α > 0时,非自适应方法需要Ω(n²α+1)个样本,而自适应方法如PRISM仅需O(n)个样本,显示出多项式差距。
  • 非自适应程序的下界由最小间隙Δ₁决定,而非H,突显了非自适应采样的根本局限性。
  • 当α = 0(稀疏情况)时,非自适应方法需要O(n log n)个样本,而自适应方法仅需O(n),显示出log n的差距。
  • 本文表明,对于许多现实的均值配置,自适应与非自适应策略之间的差距可以是n的多项式级,而不仅仅是对数级。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。