Skip to main content
QUICK REVIEW

[论文解读] Vector Optimization with Stochastic Bandit Feedback

Çağın Ararat, Cem Tekin|arXiv (Cornell University)|Oct 23, 2021
Advanced Bandit Algorithms Research被引用 1
一句话总结

本文提出了一种带有随机多臂赌博机反馈的向量优化方法,其中偏好由多面体排序锥 C 定义。通过引入一种新的锥相关度量——排序复杂度,刻画了 (ϵ, δ)-PAC 帕累托最优集识别的样本复杂度,证明最坏情况下的样本复杂度与该复杂度的平方成正比,并表明一种朴素的消除算法几乎达到该界。

ABSTRACT

We introduce vector optimization problems with stochastic bandit feedback, in which preferences among designs are encoded by a polyhedral ordering cone $C$. Our setup generalizes the best arm identification problem to vector-valued rewards by extending the concept of Pareto set beyond multi-objective optimization. We characterize the sample complexity of ($\epsilon,\delta$)-PAC Pareto set identification by defining a new cone-dependent notion of complexity, called the ordering complexity. In particular, we provide gap-dependent and worst-case lower bounds on the sample complexity and show that, in the worst-case, the sample complexity scales with the square of ordering complexity. Furthermore, we investigate the sample complexity of the na\"ive elimination algorithm and prove that it nearly matches the worst-case sample complexity. Finally, we run experiments to verify our theoretical results and illustrate how $C$ and sampling budget affect the Pareto set, the returned ($\epsilon,\delta$)-PAC Pareto set, and the success of identification.

研究动机与目标

  • 针对部分排序下的向量优化问题,提出一种随机多臂赌博机反馈模型,其中均值奖励未知,仅能获得噪声观测。
  • 将最优臂识别问题推广至向量值奖励场景,利用帕累托最优性超越多目标优化的范畴。
  • 基于一种新的锥依赖度量——排序复杂度,刻画 (ϵ, δ)-PAC 帕累托最优集识别的样本复杂度。
  • 分析朴素消除算法的性能,并证明其样本复杂度几乎达到最坏情况下的样本复杂度下界。
  • 通过实验验证理论结果,分析锥 C 和采样预算对帕累托最优集识别的影响。

提出的方法

  • 提出一种用于向量优化的随机多臂赌博机框架,其中每个设计产生一个 D 维均值向量 µi 的噪声观测。
  • 使用 D 维空间中的多面体排序锥 C ⊆ RD 定义帕累托最优性,推广多目标设置中的分量支配关系。
  • 引入“排序复杂度”作为锥依赖的度量,用于捕捉区分帕累托最优与非帕累托最优设计的难度。
  • 建立基于差距的样本复杂度下界与最坏情况下的下界,证明最坏情况复杂度与排序复杂度的平方成正比。
  • 分析朴素消除算法,证明其样本复杂度几乎达到最坏情况下的下界。
  • 利用集中不等式与锥的几何性质,推导出成对差值 ∆ij = µj − µi 的估计误差的高概率界。

实验结果

研究问题

  • RQ1排序锥 C 的结构如何影响在带有随机多臂赌博机反馈的向量优化中识别 (ϵ, δ)-PAC 帕累托最优集的样本复杂度?
  • RQ2 (ϵ, δ)-PAC 帕累托最优集识别的理论最坏情况样本复杂度是多少?其如何随锥 C 的几何结构变化?
  • RQ3朴素消除算法能否在该向量值多臂赌博机设置中实现近似最优的样本复杂度?
  • RQ4锥角与采样预算在实践中如何影响帕累托最优集识别的成功率与准确性?
  • RQ5帕累托最优与非帕累托最优设计之间的差距在决定所需样本数方面起什么作用?

主要发现

  • (ϵ, δ)-PAC 帕累托最优集识别的最坏情况样本复杂度与锥 C 的排序复杂度的平方成正比。
  • 朴素消除算法的样本复杂度几乎达到最坏情况样本复杂度下界,证明其近乎最优。
  • 对于任意 (ϵ, δ),存在常数 c,使得当每个设计的采样数 L = ⌈(4β²c²σ²/ϵ²) log(4D/δ)⌉ 时,有 ||ˆ∆ij − ∆ij||₂ ≤ ϵθij 的概率至少为 1−δ。
  • 当 D = 1 时,朴素消除算法的样本复杂度与 Even-Dar 等人(2006)的已知结果一致,验证了该框架的一致性。
  • 实验表明,成功概率随采样预算增加而上升,且对锥角敏感:在低预算下,宽锥(如 135°)的成功率急剧下降。
  • 随着预算增加,返回集合中误报率(P P∗)与漏报率(P∗ P)均下降,当样本数达到 10⁵ 时,PMθ 降至 0。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。