Skip to main content
QUICK REVIEW

[论文解读] Stochastic Zeroth-order Optimization in High Dimensions

Yining Wang, Simon S. Du|arXiv (Cornell University)|Oct 29, 2017
Sparse and Compressive Sensing Techniques参考文献 35被引用 28
一句话总结

本文提出了两种用于高维凸函数的随机零阶优化算法,通过使用带有噪声的函数查询。通过利用梯度或函数结构中的稀疏性,两种方法的收敛速率仅与环境维度 d 的对数成比例,显著优于经典方法在 d 上呈多项式增长的性能。

ABSTRACT

We consider the problem of optimizing a high-dimensional convex function using stochastic zeroth-order queries. Under sparsity assumptions on the gradients or function values, we present two algorithms: a successive component/feature selection algorithm and a noisy mirror descent algorithm using Lasso gradient estimates, and show that both algorithms have convergence rates that de- pend only logarithmically on the ambient dimension of the problem. Empirical results confirm our theoretical findings and show that the algorithms we design outperform classical zeroth-order optimization methods in the high-dimensional setting.

研究动机与目标

  • 解决高维随机零阶优化中的挑战,其中梯度不可用且函数评估存在噪声。
  • 克服经典零阶方法在高维设置下对维度 d 的多项式依赖问题。
  • 在稀疏性假设下,开发收敛速率与 d 无关(仅对数因子)的算法。
  • 提供理论收敛边界,并通过在合成高维函数上的模拟验证性能。
  • 探索在弱稀疏性假设下实现近似与维度无关收敛的可行性,以及在 Hessian 平滑性下实现更优收敛速率的可能性。

提出的方法

  • 提出一种连续分量/特征选择算法,通过带有噪声的函数查询识别出一组重要的变量 S,然后在 S 上应用低维零阶优化。
  • 引入一种带有去偏 Lasso 的噪声镜面下降算法,通过零阶查询估计梯度,从而实现在高维优化中的高效性。
  • 采用基于 Lasso 的梯度估计并结合去偏处理,以减少稀疏高维设置下的估计偏差,提升收敛速率。
  • 在稀疏性结构上使用自适应正则化项的镜面下降,实现在稀疏性假设下的维度无关收敛。
  • 在镜面下降框架中引入 Hessian 平滑性假设,将收敛速率从 O(T^{-1/4}) 提升至 O(T^{-1/3})。
  • 使用带有独立同分布噪声的随机预言机查询,以建模超参数调优和基于模拟的优化中的真实黑箱函数评估。

实验结果

研究问题

  • RQ1在稀疏性假设下,零阶优化能否实现仅与环境维度 d 的对数成比例的收敛速率?
  • RQ2在高维零阶优化中,带有去偏 Lasso 梯度估计的镜面下降框架是否能优于基于特征选择的方法?
  • RQ3在弱或强稀疏性假设下,高维零阶优化中可实现的最优收敛速率是什么?
  • RQ4Hessian 平滑性假设是否能在不依赖二阶预言机访问的情况下提升收敛速率?
  • RQ5在稀疏性假设下,能否实现 O(poly(log d) T^{-1/2}) 的收敛速率,与低维最优速率相匹配?

主要发现

  • 连续分量选择算法在稀疏性假设下实现了 O(T^{-1/4}) 的收敛速率,且对 d 的依赖为对数形式。
  • 在额外的 Hessian 平滑性假设下,采用去偏 Lasso 梯度估计的镜面下降算法实现了更快的 O(T^{-1/3}) 收敛速率。
  • 实验结果表明,两种所提算法在高维设置下均优于经典零阶方法(如局部平均法)。
  • 模拟结果中,镜面下降算法始终优于特征选择方法,且由于超参数更少而更易调优。
  • 理论分析证实,收敛速率仅与环境维度 d 的对数相关,而经典方法则随 d 呈多项式增长。
  • 本文证明,在强稀疏性假设下,零阶优化可实现与维度无关的收敛速率(仅对 log(d) 因子有依赖)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。