QUICK REVIEW

[论文解读] Batched Gaussian Process Bandit Optimization via Determinantal Point Processes

Tarun Kathuria, Amit Deshpande|arXiv (Cornell University)|Nov 13, 2016

Advanced Bandit Algorithms Research参考文献 18被引用 39

一句话总结

本文提出一种新颖的批处理贝叶斯优化方法，利用行列式点过程（DPPs）选择多样且信息丰富的参数集以实现并行评估。通过从GP后验协方差中学习DPP核，该方法可借助DPP-MAX（贪心）或DPP-SAMPLE（随机）实现高效批处理选择，在较大批处理规模下相比先前方法展现出更低的期望遗憾值。

ABSTRACT

Gaussian Process bandit optimization has emerged as a powerful tool for optimizing noisy black box functions. One example in machine learning is hyper-parameter optimization where each evaluation of the target function requires training a model which may involve days or even weeks of computation. Most methods for this so-called "Bayesian optimization" only allow sequential exploration of the parameter space. However, it is often desirable to propose batches or sets of parameter values to explore simultaneously, especially when there are large parallel processing facilities at our disposal. Batch methods require modeling the interaction between the different evaluations in the batch, which can be expensive in complex scenarios. In this paper, we propose a new approach for parallelizing Bayesian optimization by modeling the diversity of a batch via Determinantal point processes (DPPs) whose kernels are learned automatically. This allows us to generalize a previous result as well as prove better regret bounds based on DPP sampling. Our experiments on a variety of synthetic and real-world robotics and hyper-parameter optimization tasks indicate that our DPP-based methods, especially those based on DPP sampling, outperform state-of-the-art methods.

研究动机与目标

解决昂贵黑箱函数的贝叶斯优化并行化挑战，因顺序评估速度过慢。
克服现有批处理贝叶斯优化方法在缺乏原则性多样性建模或计算成本过高的局限。
开发一种框架，自动从观测数据中学习DPP核，以在批处理中平衡探索与利用。
为DPP-MAX与DPP-SAMPLE两种变体提供理论遗憾界，优于先前工作。
通过实证结果表明，DPP-SAMPLE在真实世界与合成优化任务中，尤其在较大批处理规模下，优于最先进基线方法。

提出的方法

使用行列式点过程（DPPs）建模批处理多样性，其通过行列式核天然促进多样子集的生成。
将高斯过程的后验协方差矩阵用作DPP核，实现数据驱动、自适应的多样性建模。
通过贪心选择实现DPP-MAX，以寻找固定大小下行列式值最高的子集，确保多样性与高期望奖励。
通过从DPP分布中随机抽样实现DPP-SAMPLE，引入不确定性并减少对贪心选择的过拟合。
将基于DPP的批处理选择与采集函数（如EST与UCB）结合，其中第一个点通过UCB/EST选择，其余点通过DPP选择。
推导DPP-MAX与DPP-SAMPLE的遗憾界，表明采样方法相比最大化方法能实现更低的期望遗憾。

实验结果

研究问题

RQ1DPP是否能有效用于批处理贝叶斯优化中的多样性建模，从而提升样本效率？
RQ2从GP后验协方差中学习DPP核是否能带来比固定或启发式核更好的泛化能力与更低遗憾？
RQ3DPP-SAMPLE（从DPP分布中抽样）是否预期能实现比DPP-MAX（使用贪心选择）更低的遗憾？
RQ4与现有批处理贝叶斯优化算法（如BUCB、UCB-PE与LP-UCB）相比，所提出的基于DPP的方法在收敛速度与最终性能方面表现如何？
RQ5能否为基于DPP的方法推导并改进理论遗憾界，特别是针对广泛使用的RBF核？

主要发现

在合成与真实世界任务中，DPP-SAMPLE始终优于DPP-MAX及其他基线方法，尤其在较大批处理规模下（如B=10）。
在Bibtex数据集的FastXML超参数调优任务中，DPP-SAMPLE性能与最佳基线（LP-UCB）相当，且显著优于DPP-MAX与批处理方法。
在机器人控制任务中，DPP-SAMPLE在B=10时与DPP-MAX相比展现出显著性能差距，证实了在大批次中随机抽样带来的优势。
当使用DPP-MAX与贪心选择规则时，基于DPP的框架可精确恢复UCB-PE作为特例，验证了其理论一致性。
本文提供了RBF核信息增益的简化证明，将已知遗憾界从O((log T)^{d+1})改进为O((log T)^d)，从而增强了理论保证。
实证结果表明，DPP-SAMPLE在多个基准测试中（包括Abalone与Delicious数据集）与或优于LP-UCB及其他最先进方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。