Skip to main content
QUICK REVIEW

[论文解读] Query Complexity of Derivative-Free Optimization

Kevin Jamieson, Robert D. Nowak|arXiv (Cornell University)|Sep 11, 2012
Computability, Logic, AI Algorithms参考文献 17被引用 78
一句话总结

本文建立了在噪声函数评估和布尔函数比较下,无导数优化(DFO)查询复杂度的基本下界,证明了在噪声存在时,DFO方法无法实现梯度方法的更快 $\Theta(1/T)$ 收敛速率。本文提出一种仅使用成对比较的新DFO算法,实现了近似最优的 $\widetilde{O}(n(n/T)^{1/2})$ 收敛速率,其在 $T$ 上的依赖与下界一致,表明基于比较的DFO在查询效率上与基于评估的DFO同样强大。

ABSTRACT

This paper provides lower bounds on the convergence rate of Derivative Free Optimization (DFO) with noisy function evaluations, exposing a fundamental and unavoidable gap between the performance of algorithms with access to gradients and those with access to only function evaluations. However, there are situations in which DFO is unavoidable, and for such situations we propose a new DFO algorithm that is proved to be near optimal for the class of strongly convex objective functions. A distinctive feature of the algorithm is that it uses only Boolean-valued function comparisons, rather than function evaluations. This makes the algorithm useful in an even wider range of applications, such as optimization based on paired comparisons from human subjects, for example. We also show that regardless of whether DFO is based on noisy function evaluations or Boolean-valued function comparisons, the convergence rate is the same.

研究动机与目标

  • 建立在函数评估存在噪声时,无导数优化(DFO)收敛速率的根本限制。
  • 研究基于函数比较的DFO方法是否能实现与使用实际函数评估的方法相同的收敛速率。
  • 开发一种新的DFO算法,该算法在同时存在噪声函数评估和比较预言机的情况下,对强凸函数实现近似最优收敛。
  • 证明即使仅使用成对比较,梯度方法与无导数方法之间的性能差距在噪声下依然存在。
  • 将DFO的应用范围扩展到仅可行人类受试者比较(例如,“更好还是更差?”)的场景。

提出的方法

  • 本文推导了在噪声函数评估和比较预言机下,DFO的期望优化误差的下界,表明两种模型的收敛速率均存在根本性的 $\Omega(\sqrt{1/T})$ 下界。
  • 提出一种仅使用布尔值函数比较的新型DFO算法,避免依赖于数值函数值。
  • 该算法采用一种类似抛硬币的策略,对函数差值的符号进行鲁棒估计,即使在比较存在噪声时也适用。
  • 通过联合界估计和重复采样,确保在 $\kappa > 1$ 时的可靠比较决策,此时小的函数差异会导致可靠性下降。
  • 分析中考虑了强凸性和Lipschitz梯度假设,以推导关于 $T$、维度 $n$ 和置信参数的收敛速率。
  • 证明所提出的算法可实现 $\widetilde{O}(n(n/T)^{1/2})$ 的收敛速率,其在维度依赖上与下界仅相差一个因子 $n$,且在 $T$ 上与下界一致。

实验结果

研究问题

  • RQ1当函数评估受噪声污染时,无导数优化的根本查询复杂度极限是什么?
  • RQ2基于成对比较的DFO算法是否能实现与使用实际函数评估的算法相同的收敛速率?
  • RQ3是否存在一种可证明近似最优的DFO算法,仅依赖于函数比较,即使在比较响应不可靠或存在噪声时也有效?
  • RQ4在存在噪声的情况下,DFO与梯度方法的性能相比如何,特别是在收敛速率随 $T$ 的缩放关系方面?
  • RQ5比较预言机的可靠性模型(由参数 $\kappa$ 参数化)对所需总查询数有何影响?

主要发现

  • 本文证明,对于任何使用噪声函数评估或成对比较的DFO算法,其期望优化误差的下界为 $\Omega(\sqrt{1/T})$,即使在强凸函数下也成立。
  • 该下界与有限差分方法的收敛速率一致,表明DFO无法实现噪声梯度方法的 $\Theta(1/T)$ 收敛速率。
  • 所提出的DFO算法实现了 $\widetilde{O}(n(n/T)^{1/2})$ 的收敛速率,其在维度依赖上紧致(仅相差因子 $n$),且在 $T$ 上与下界一致。
  • 当 $\kappa=1$ 时,算法的收敛速率为 $\widetilde{O}(\exp(-c\sqrt{T/(n\log(n/\delta))}))$,表明在可靠性恒定下,$T$ 呈指数衰减。
  • 分析表明,基于比较的DFO在 $T$ 上的性能并不慢于基于评估的DFO,因为两者均达到相同的 $\Omega(\sqrt{1/T})$ 下界。
  • 即使比较可靠性随小的函数差异而下降($\kappa > 1$),该算法依然有效,其查询复杂度为 $\widetilde{O}(nL/\tau \cdot (n/\epsilon)^{2(\kappa-1)} \log^2(f(x_0)-f(x^*)) \log(n/\delta))$。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。