[论文解读] Zeroth-Order Stochastic Variance Reduction for Nonconvex Optimization
引入 ZO-SVRG,一种用于非凸问题的零阶方差减少优化方法,分析其收敛性与偏差,并展示在两种加速变体下的提升性能以及实际的黑箱应用。
As application demands for zeroth-order (gradient-free) optimization accelerate, the need for variance reduced and faster converging approaches is also intensifying. This paper addresses these challenges by presenting: a) a comprehensive theoretical analysis of variance reduced zeroth-order (ZO) optimization, b) a novel variance reduced ZO algorithm, called ZO-SVRG, and c) an experimental evaluation of our approach in the context of two compelling applications, black-box chemical material classification and generation of adversarial examples from black-box deep neural network models. Our theoretical analysis uncovers an essential difficulty in the analysis of ZO-SVRG: the unbiased assumption on gradient estimates no longer holds. We prove that compared to its first-order counterpart, ZO-SVRG with a two-point random gradient estimator could suffer an additional error of order $O(1/b)$, where $b$ is the mini-batch size. To mitigate this error, we propose two accelerated versions of ZO-SVRG utilizing variance reduced gradient estimators, which achieve the best rate known for ZO stochastic optimization (in terms of iterations). Our extensive experimental results show that our approaches outperform other state-of-the-art ZO algorithms, and strike a balance between the convergence rate and the function query complexity.
研究动机与目标
- 为零阶(梯度无关)非凸优化激发方差减少的动机。
- 通过将 SVRG 与零阶梯度估计结合,开发 ZO-SVRG。
- 分析由零阶估计引入的收敛性和误差项。
- 提出加速变体以提高迭代复杂度。
- 展示在黑箱材料分类与黑箱对抗攻击生成中的有效性。
提出的方法
- 给出非凸有限和问题并采用两点零阶梯度估计。
- 在 SVRG(算法2)中用混合的零阶梯度估计替代真实梯度,引入 ZO-SVRG。
- 推导混合梯度估计的二阶矩界限,并在 b<n 时识别出 O(d/b) 的误差项。
- 给出收敛性结果,显示 E[||∇f(x̄)||^2] ≤ …,其中包含采样和平滑参数的显式项。
- 提出通过 Avg-RandGradEst 和 CoordGradEst 的加速来改善迭代复杂度。
- 比较 ZO-SVRG、ZO-SVRG-Ave、ZO-SVRG-Coord、ZO-SGD、ZO-SVRC 的查询复杂度与收敛性。
实验结果
研究问题
- RQ1方差减少技术是否能够有效适用于非凸目标的零阶优化?
- RQ2使用两点零阶估计对 SVRG 型收敛性保证的影响是什么?
- RQ3加速的零阶方差减少变体在迭代与查询复杂度方面的比较如何?
- RQ4这些方法在现实世界的黑箱问题(如材料分类和黑箱对抗攻击)上是否表现良好?
主要发现
- ZO-SVRG 的收敛速度类似于 SVRG,但由于零阶估计引入额外的 O(d/b) 误差项。
- 两个加速变体 ZO-SVRG-Ave 与 ZO-SVRG-Coord 能在迭代次数上达到已知最佳的 ZO 收敛界限。
- Avg-RandGradEst 将 O(d/b) 误差降低到 O(d/(bq)),在方向数 q 表示中等的情况下,加速收敛。
- CoordGradEst 提供最快的迭代速率,但需要大量函数查询,增加总体成本。
- 实验结果显示,在黑箱化学材料分类和黑箱深度神经网络对抗攻击任务中,ZO-SVRG 家族优于 ZO-SGD 和 ZO-SVRC。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。