[论文解读] Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization
该论文提出了一种用于非凸小规模优化和极小极大优化的加速零阶与一阶动量方法,通过基于动量的方差减少和统一平滑技术,实现了更低的查询复杂度与梯度复杂度。该工作建立了零阶方法的查询复杂度为 $\tilde{O}(d^{3/4}\epsilon^{-3})$,一阶方法的查询复杂度为 $\tilde{O}(\kappa_y^{4.5}\epsilon^{-3})$,相较于先前工作分别提升了 $O(d^{1/4})$ 和 $O\left(\kappa_y^{1/2}\right)$ 的因子,且无需使用大批次。
In the paper, we propose a class of accelerated zeroth-order and first-order momentum methods for both nonconvex mini-optimization and minimax-optimization. Specifically, we propose a new accelerated zeroth-order momentum (Acc-ZOM) method for black-box mini-optimization where only function values can be obtained. Moreover, we prove that our Acc-ZOM method achieves a lower query complexity of $ ilde{O}(d^{3/4}ε^{-3})$ for finding an $ε$-stationary point, which improves the best known result by a factor of $O(d^{1/4})$ where $d$ denotes the variable dimension. In particular, our Acc-ZOM does not need large batches required in the existing zeroth-order stochastic algorithms. Meanwhile, we propose an accelerated zeroth-order momentum descent ascent (Acc-ZOMDA) method for black-box minimax optimization, where only function values can be obtained. Our Acc-ZOMDA obtains a low query complexity of $ ilde{O}((d_1+d_2)^{3/4}κ_y^{4.5}ε^{-3})$ without requiring large batches for finding an $ε$-stationary point, where $d_1$ and $d_2$ denote variable dimensions and $κ_y$ is condition number. Moreover, we propose an accelerated first-order momentum descent ascent (Acc-MDA) method for minimax optimization, whose explicit gradients are accessible. Our Acc-MDA achieves a low gradient complexity of $ ilde{O}(κ_y^{4.5}ε^{-3})$ without requiring large batches for finding an $ε$-stationary point. In particular, our Acc-MDA can obtain a lower gradient complexity of $ ilde{O}(κ_y^{2.5}ε^{-3})$ with a batch size $O(κ_y^4)$, which improves the best known result by a factor of $O(κ_y^{1/2})$. Extensive experimental results on black-box adversarial attack to deep neural networks and poisoning attack to logistic regression demonstrate efficiency of our algorithms.
研究动机与目标
- 为解决现有零阶方法在黑箱非凸优化中查询复杂度过高的问题,尤其是在梯度不可用的情况下。
- 在仅能访问函数值的黑箱设定下,开发高效的极小极大优化算法。
- 通过消除对大批次的依赖,降低方差减少型零阶方法的计算负担。
- 在零阶与一阶设定下,实现查询与梯度复杂度的更优收敛速率。
- 在弱于先前方法的假设下(如分量函数光滑性)提供理论保证,同时保持低复杂度。
提出的方法
- 提出一种基于统一平滑与基于动量的方差减少技术的加速零阶动量(Acc-ZOM)方法,灵感来自 STORM / Hybrid-SGD。
- 集成一种基于动量的递归梯度估计器,以在不依赖大批次的情况下减少函数值查询的方差。
- 为极小极大问题设计一种加速零阶动量下降-上升(Acc-ZOMDA)方法,采用相似的平滑与动量技术。
- 为具有显式梯度的极小极大问题提出一种加速一阶动量下降-上升(Acc-MDA)方法,实现低梯度复杂度。
- 采用一种结合函数值查询与动量更新的混合策略,以稳定收敛并提升查询效率。
- 基于光滑性与条件数假设,推导出查询与梯度复杂度的理论界,明确体现对维度与条件数 $\kappa_y$ 的依赖关系。
实验结果
研究问题
- RQ1能否有效将基于动量的方差减少方法适配于零阶优化,以在不使用大批次的情况下降低查询复杂度?
- RQ2在非凸黑箱优化中,加速零阶方法在寻找 $\epsilon$-驻点时可达到的最优查询复杂度是多少?
- RQ3所提出的 Acc-ZOMDA 方法在查询复杂度与实际效率方面,相较于现有零阶极小极大求解器表现如何?
- RQ4与先前的方差减少方法相比,一阶动量方法在极小极大优化中能否实现更优的梯度复杂度?
- RQ5条件数 $\kappa_y$ 对零阶与一阶极小极大算法收敛速率的影响是什么?
主要发现
- Acc-ZOM 方法在寻找 $\epsilon$-驻点时达到 $\tilde{O}(d^{3/4}\epsilon^{-3})$ 的查询复杂度,相较于最优已知结果提升了 $O(d^{1/4})$ 因子。
- Acc-ZOMDA 方法在不依赖大批次的情况下,实现极小极大问题的查询复杂度为 $\tilde{O}((d_1 + d_2)^{3/4}\kappa_y^{4.5}\epsilon^{-3})$。
- Acc-MDA 方法在第一阶极小极大优化中实现 $\tilde{O}(\kappa_y^{4.5}\epsilon^{-3})$ 的梯度复杂度,相较于最优已知结果提升了 $O(\kappa_y^{1/2})$ 因子。
- 当批量大小为 $O(\kappa_y^4)$ 时,Acc-MDA 实现更低的梯度复杂度 $\tilde{O}(\kappa_y^{2.5}\epsilon^{-3})$,进一步提升收敛速率。
- 理论分析表明,所提方法仅需分量函数光滑性这一较弱假设,优于先前方法(如 ZO-AdaMM 与 ZO-Min-Max)所采用的假设。
- 在黑箱对抗攻击与投毒攻击上的大量实验验证了所提算法的高效性与实际优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。