QUICK REVIEW

[论文解读] Ordinal optimization - empirical large deviations rate estimators, and stochastic multi-armed bandits

Peter W. Glynn, Sandeep Juneja|arXiv (Cornell University)|Jul 16, 2015

Advanced Bandit Algorithms Research参考文献 18被引用 30

一句话总结

本文挑战了在标准采样方法下，序优化中错误选择概率会以指数速度衰减的假设，表明对于无界总体，任何算法都无法保证在 $O(\log(1/\delta))$ 时间内实现 $1 - \delta$ 正确性。本文建立了经验率估计器的大偏差原理，并证明了矩限制对于此类高效算法是必不可少的，同时表明多臂赌博机方法可被调整以在矩有界条件下实现 $O(\log(1/\delta))$ 样本复杂度。

ABSTRACT

Consider the ordinal optimization problem of finding a population amongst many with the smallest mean when these means are unknown but population samples can be generated via simulation. Typically, by selecting a population with the smallest sample mean, it can be shown that the false selection probability decays at an exponential rate. Lately researchers have sought algorithms that guarantee that this probability is restricted to a small $\delta$ in order $\log(1/\delta)$ computational time by estimating the associated large deviations rate function via simulation. We show that such guarantees are misleading. Enroute, we identify the large deviations principle followed by the empirically estimated large deviations rate function that may also be of independent interest. Further, we show a negative result that when populations have unbounded support, any policy that asymptotically identifies the correct population with probability at least $1-\delta$ for each problem instance requires more than $O(\log(1/\delta))$ samples in making such a determination in any problem instance. This suggests that some restrictions are essential on populations to devise $O(\log(1/\delta))$ algorithms with $1 - \delta$ correctness guarantees. We note that under restriction on population moments, such methods are easily designed. We also observe that sequential methods from stochastic multi-armed bandit literature can be adapted to devise such algorithms.

研究动机与目标

研究在样本复杂度为 $O(\log(1/\delta))$ 的条件下，实现序优化中 $1 - \delta$ 正确性的可行性。
分析基于模拟的选取中经验估计率函数的大偏差行为。
确定对于具有无界支撑的总体，是否存在 $O(\log(1/\delta))$ 算法。
探讨序优化与随机多臂赌博机方法之间的联系。
建立实现高效、高置信度选择的条件。

提出的方法

通过基于样本的估计推导出经验估计的大偏差率函数所遵循的大偏差原理。
分析在标准样本均值选择下错误选择概率的衰减速率，表明对于无界总体，指数衰减并非始终成立。
证明一个负结果：任何在所有无界支撑实例中实现 $1 - \delta$ 正确性的策略，其样本量在渐近意义上均超过 $O(\log(1/\delta))$。
建立在矩限制（如有限方差）条件下，$O(\log(1/\delta))$ 算法是可行的，并可构造。
将随机多臂赌博机文献中的顺序采样策略进行调整，以在矩有界假设下实现高效、高置信度的选择。
利用大偏差理论和集中不等式，形式化样本复杂度与置信度保证之间的权衡。

实验结果

研究问题

RQ1对于具有无界支撑的总体，能否在序优化中实现 $O(\log(1/\delta))$ 样本复杂度？
RQ2在基于模拟的选取中，经验估计率函数表现出怎样的大偏差行为？
RQ3是否能够对所有具有无界支撑的总体实例，以 $O\left(\log(1/\delta)\right)$ 时间保证 $1 - \delta$ 正确性？
RQ4在何种矩条件下可以构建高效的 $O(\log(1/\delta))$ 算法？
RQ5如何将多臂赌博机策略调整以实现在序优化中的高置信度选择？

主要发现

对于具有无界支撑的总体，没有任何策略能在所有实例中以 $O(\log(1/\delta))$ 样本量实现 $1 - \delta$ 正确性，这否定了文献中的常见假设。
经验估计的大偏差率函数遵循一个明确定义的大偏差原理，该结果可能在统计学习领域具有独立兴趣。
在有界矩条件（如有限方差）下，可以构建具有 $1 - \delta$ 正确性保证的 $O(\log(1/\delta))$ 算法。
来自随机多臂赌博机理论的顺序采样方法可被调整，以在序优化中实现高效、高置信度的选择。
对于无界总体，错误选择概率通常不会以指数速度衰减，这削弱了标准估计器的可靠性。
本文建立了样本复杂度的下限，该下限对于无界总体超过 $O(\log(1/\delta))$，凸显了矩限制的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。