Skip to main content
QUICK REVIEW

[论文解读] The reparameterization trick for acquisition functions

James T. Wilson, Riccardo Moriconi|arXiv (Cornell University)|Dec 1, 2017
Advanced Multi-Objective Optimization Algorithms参考文献 1被引用 39
一句话总结

本文提出一种重参数化技巧,使贝叶斯优化中难以处理的获取函数能够进行基于梯度的优化,尤其适用于并行查询选择。通过将获取函数重新表述为可微分的高斯积分,该方法实现了高效的蒙特卡洛估计,并通过随机梯度下降进行优化,显著优于非梯度方法。

ABSTRACT

Bayesian optimization is a sample-efficient approach to solving global optimization problems. Along with a surrogate model, this approach relies on theoretically motivated value heuristics (acquisition functions) to guide the search process. Maximizing acquisition functions yields the best performance; unfortunately, this ideal is difficult to achieve since optimizing acquisition functions per se is frequently non-trivial. This statement is especially true in the parallel setting, where acquisition functions are routinely non-convex, high-dimensional, and intractable. Here, we demonstrate how many popular acquisition functions can be formulated as Gaussian integrals amenable to the reparameterization trick and, ensuingly, gradient-based optimization. Further, we use this reparameterized representation to derive an efficient Monte Carlo estimator for the upper confidence bound acquisition function in the context of parallel selection.

研究动机与目标

  • 为解决在贝叶斯优化中优化难以处理的获取函数的挑战,特别是在高维且非凸的并行设置下。
  • 证明流行的获取函数可重新表述为适用于重参数化技巧的可微分高斯积分。
  • 通过蒙特卡洛估计实现获取函数的高效基于梯度的优化,提升样本效率和收敛性。
  • 提供一个统一的框架,利用重参数化技巧对获取函数进行微分,简化推导与实现。

提出的方法

  • 将获取函数重新表述为对函数输出的高斯积分,使重参数化技巧得以应用。
  • 使用确定性映射 ρ: z → y 对随机变量进行重参数化,即 y = μ + Lz,其中 z ~ N(0, I),使对分布参数的依赖关系显式化。
  • 应用重参数化技巧,将获取函数表示为参数的可微函数,从而可通过反向传播计算梯度。
  • 基于重参数化形式,推导出上限置信区间(UCB)获取函数的蒙特卡洛估计器,实现基于随机梯度的优化。
  • 将非可微组件(如Heaviside阶跃函数和max操作符)替换为平滑近似(如softmax和次梯度),以支持梯度流动。
  • 使用带有Adam优化器的随机梯度下降(SGD)以及L-BFGS-B进行确定性优化,并通过多次随机重启避免陷入局部极小值。

实验结果

研究问题

  • RQ1重参数化技巧是否可应用于使难以处理的获取函数可微,以支持基于梯度的优化?
  • RQ2与非梯度方法相比,基于梯度优化重参数化后的获取函数在性能和收敛性方面表现如何?
  • RQ3重参数化技巧是否能简化如q-UCB等复杂获取函数的推导与实现?
  • RQ4对非光滑组件(如softmax)的平滑近似对获取函数优化有何影响?
  • RQ5针对q-UCB的重参数化蒙特卡洛估计器是否能实现高效的并行贝叶斯优化并提升样本效率?

主要发现

  • 基于梯度的优化在16个任务的平均性能上优于随机搜索和分治长方体法等非梯度方法。
  • 使用Adam的随机梯度下降(SGD)与确定性的L-BFGS-B优化器性能相当,表明不同优化策略下的鲁棒性。
  • 针对q-UCB的重参数化蒙特卡洛估计器实现了首个真正意义上的并行UCB公式,其在高维并行贝叶斯优化中表现有效。
  • 对非可微组件(如Heaviside阶跃函数)使用平滑近似(如τ = 0.01的softmax)可生成信息丰富的梯度,并降低优化误差。
  • 重参数化技巧简化了复杂获取函数(如q-UCB)的推导,使梯度计算变得透明且系统化。
  • 在等效运行时间下,基于梯度的优化器在高维设置(8D任务)中表现优于非梯度基线,尤其在平均性能方面优势明显。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。