QUICK REVIEW

[论文解读] Disagreement-based combinatorial pure exploration: Efficient algorithms and an analysis with localization

Tongyi Cao, Akshay Krishnamurthy|arXiv (Cornell University)|Nov 21, 2017

Machine Learning and Algorithms参考文献 26被引用 6

一句话总结

本文提出了多臂赌博机中组合纯探索的高效算法，通过基于分歧的探索与线性优化，实现了固定预算和固定置信度设置下的最先进样本复杂度。该方法通过使用精确的集中不等式和一种新颖的大规模线性规划求解方法，实现了对匹配和子矩阵等复杂结构的最优性能。

ABSTRACT

We design new algorithms for the combinatorial pure exploration problem in the multi-arm bandit framework. In this problem, we are given K distributions and a collection of subsets $\mathcal{V} \subset 2^K$ of these distributions, and we would like to find the subset $v \in \mathcal{V}$ that has largest cumulative mean, while collecting, in a sequential fashion, as few samples from the distributions as possible. We study both the fixed budget and fixed confidence settings, and our algorithms essentially achieve state-of-the-art performance in all settings, improving on previous guarantees for structures like matchings and submatrices that have large augmenting sets. Moreover, our algorithms can be implemented efficiently whenever the decision set V admits linear optimization. Our analysis involves precise concentration-of-measure arguments and a new algorithm for linear programming with exponentially many constraints.

研究动机与目标

设计多臂赌博机中组合纯探索的高效算法，以实现最小样本复杂度。
解决在序列采样约束下从一组分布中识别最优子集的挑战。
通过大规模增强集的结构化决策集（如匹配和子矩阵）改进现有保证。
通过在决策集 V 上实现高效的线性优化，实现实际可实施性。
利用集中测度论证和指数约束线性规划，提供精细化的理论分析。

提出的方法

该算法采用基于分歧的探索策略，优先选择可能改进当前最优子集的臂。
将选择问题表述为具有指数级约束的线性规划，通过分离 oracle 求解。
该方法依赖于精确的集中测度不等式，以限制估计误差并确保正确识别最优子集。
提出一种新颖算法，通过迭代识别违反约束来求解具有指数级约束的线性规划。
当决策集 V 允许高效线性优化时，该方法具有适用性，可扩展至复杂组合结构。
该框架支持固定预算和固定置信度设置，相应调整采样策略。

实验结果

研究问题

RQ1当决策集具有复杂结构（如匹配或子矩阵）时，如何最小化组合纯探索中的样本复杂度？
RQ2在结构化设置下，基于分歧的探索策略是否能相比以往方法提升样本效率？
RQ3在固定预算和固定置信度设置下，组合纯探索的理论性能极限是什么？
RQ4当候选子集数量呈指数级增长时，如何高效求解底层优化问题？
RQ5精确的集中分析在确保正确且高效识别子集方面起到什么作用？

主要发现

所提出的算法在组合纯探索的固定预算和固定置信度设置下均实现了最先进的样本复杂度。
对于具有大规模增强集的匹配和子矩阵等结构，算法改进了以往的理论保证。
当决策集 V 支持高效线性优化时，该方法可实现高效实现。
开发并集成了一种用于具有指数级约束的线性规划的新算法。
理论分析依赖于尖锐的集中测度论证，确保在最小采样下以高概率正确。
该方法具有通用性，适用于广泛组合结构，包括具有复杂依赖关系的结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。