QUICK REVIEW

[论文解读] Tight Complexity Bounds for Optimizing Composite Objectives

Blake Woodworth, Nathan Srebro|arXiv (Cornell University)|May 25, 2016

Stochastic Gradient Optimization Techniques参考文献 20被引用 55

一句话总结

本文為使用梯度和邻近预言机最小化 m 个凸函数的平均值建立了紧致的复杂度界限，证明了在确定性和随机设置下，加速梯度下降（AGD）和加速 SVRG 分别是最优的。研究表明，对于非光滑函数，邻近预言机可降低复杂度，而对于光滑函数，仅需梯度访问即可，揭示了确定性与随机优化复杂度之间存在显著差距。

ABSTRACT

We provide tight upper and lower bounds on the complexity of minimizing the average of $m$ convex functions using gradient and prox oracles of the component functions. We show a significant gap between the complexity of deterministic vs randomized optimization. For smooth functions, we show that accelerated gradient descent (AGD) and an accelerated variant of SVRG are optimal in the deterministic and randomized settings respectively, and that a gradient oracle is sufficient for the optimal rate. For non-smooth functions, having access to prox oracles reduces the complexity and we present optimal methods based on smoothing that improve over methods using just gradient accesses.

研究动机与目标

建立最小化 m 个凸函数平均值所需的梯度和邻近预言机调用次数的紧致上下界。
阐明在非光滑和光滑优化中，邻近预言机与梯度预言机的相对能力。
研究有限和优化中确定性与随机算法之间的复杂度差距。
证明现有方法（如 AGD、SVRG 和加速 SDCA）在对数因子范围内是最优的。
首次为复合目标的邻近预言机使用提供有意义的下界，特别是针对 m=2 的情况。

提出的方法

使用信息论论证和归约技术，推导随机和确定性算法的预言机访问下界。
构建具有受控次梯度和邻近行为的对抗性函数族，以证明非光滑和光滑情况下的下界。
对非光滑函数应用平滑技术，表明邻近预言机访问可实现比仅使用梯度方法更快的收敛速度。
利用已知的加速方法（AGD、A-SVRG）作为上界，证明其复杂度与下界相匹配。
将线性函数中符号预测问题归约为下界，以确定达到次优解所需的预言机查询次数。
使用正则化和范数有界性论证，将下界扩展至有界域之外。

实验结果

研究问题

RQ1使用梯度和邻近预言机最小化 m 个凸函数平均值的最优复杂度是什么？
RQ2在有限和优化中，确定性与随机算法的复杂度有何不同？
RQ3与仅使用梯度访问相比，邻近预言机访问在非光滑复合目标中能多大程度改善收敛性？
RQ4AGD 和 SVRG 等现有加速方法在其各自设置中是否是最优的？
RQ5光滑和非光滑、凸和强凸函数的预言机访问的最紧可能下界是什么？

主要发现

对于光滑函数，加速梯度下降（AGD）在确定性设置中实现了最优复杂度，与推导出的下界完全匹配。
对于随机算法，加速 SVRG 是最优的，实现了迄今为止已知最紧的复杂度界限（对数因子内）。
在非光滑情况下，邻近预言机访问将 ε 的多项式依赖从 1/ε² 降低到 1/ε，显著提升了收敛速率。
对于强凸函数，邻近访问将复杂度依赖从 1/(λε) 降低到 1/√(λε)，再次显示出显著改进。
本文建立了确定性与随机算法之间显著的复杂度差距，其中随机方法在 m 和 ε 上具有更优的依赖关系。
下界与上界（对数因子内）相匹配，证明了 AGD、A-SVRG 和加速 SDCA 等现有方法的最优性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。