QUICK REVIEW

[论文解读] A Universal Algorithm for Variational Inequalities Adaptive to Smoothness and Noise

Francis Bach, Kfir Y. Levy|arXiv (Cornell University)|Feb 5, 2019

Sparse and Compressive Sensing Techniques参考文献 15被引用 29

一句话总结

本文提出了一种基于镜像-普罗克斯（Mirror-Prox）的通用算法，用于变分不等式问题，在无需预先知晓问题属性的情况下，自适应地在光滑/非光滑与有噪/无噪设置下实现最优收敛速率。该方法采用一种受AdaGrad启发的新型自适应步长规则，分别在光滑与非光滑情况下实现最优的$O(1/T)$与$O(1/√{T})$收敛速率，同时支持任意范数与Bregman散度。

ABSTRACT

We consider variational inequalities coming from monotone operators, a setting that includes convex minimization and convex-concave saddle-point problems. We assume an access to potentially noisy unbiased values of the monotone operators and assess convergence through a compatible gap function which corresponds to the standard optimality criteria in the aforementioned subcases. We present a universal algorithm for these inequalities based on the Mirror-Prox algorithm. Concretely, our algorithm simultaneously achieves the optimal rates for the smooth/non-smooth, and noisy/noiseless settings. This is done without any prior knowledge of these properties, and in the general set-up of arbitrary norms and compatible Bregman divergences. For convex minimization and convex-concave saddle-point problems, this leads to new adaptive algorithms. Our method relies on a novel yet simple adaptive choice of the step-size, which can be seen as the appropriate extension of AdaGrad to handle constrained problems.

研究动机与目标

开发一种单一算法，在光滑、非光滑、有噪与无噪设置下均实现变分不等式问题的最优收敛速率。
消除对问题光滑性或噪声水平等先验知识的需求。
通过Bregman散度与镜像-普罗克斯方法，将自适应优化技术（如AdaGrad）扩展至约束优化问题。
为凸最小化与凸-凹鞍点问题提供统一的自适应性能框架。

提出的方法

该算法基于镜像-普罗克斯框架，并采用源自在线学习原理的自适应步长规则。
其采用一种新颖的自适应学习率，根据累积梯度范数动态调整，类似于AdaGrad，但已适配至约束优化场景。
该方法使用兼容的间隙函数（DualGap）作为收敛准则，以变分不等式术语衡量最优性。
通过控制估计方差并运用鞅差序列技术，该方法处理了噪声Oracle访问。
算法在任意范数下运行，并使用Bregman散度进行投影，从而在几何选择上具有灵活性。
关键技术组件是关于鞅差与依赖于序列的随机向量之间内积期望的界，该界在分析中起到关键作用。

实验结果

研究问题

RQ1能否设计一种单一算法，在无需预先知晓光滑性的情况下，同时实现光滑与非光滑变分不等式问题的最优收敛速率？
RQ2在随机设置中，能否在不掌握噪声方差的情况下实现对噪声水平的自适应？
RQ3如何将在线学习中的自适应步长扩展至使用Bregman散度的约束优化问题？
RQ4是否可能在单一自适应框架下，统一凸最小化与鞍点问题的收敛性保证？

主要发现

在非光滑且有噪情况下，该算法的期望对偶间隙为$O\left(\frac{\alpha GD\sqrt{\log T}}{\sqrt{T}}\right)$，在对数因子范围内达到最优速率。
在光滑且有噪情况下，期望对偶间隙被限制在$O\left(\frac{\alpha GD + \alpha^2 LD^2 + LD^2 \log(LD/G_0)}{T} + \frac{\alpha \sigma D \sqrt{1/T}}{\sqrt{T}}\right)$，实现了光滑问题的最优速率。
该方法在光滑情况下实现$O(1/T)$收敛，在非光滑情况下实现$O(1/\sqrt{T})$收敛，两者均在对数因子范围内最优。
自适应步长规则使算法能自动受益于局部光滑性与低噪声，而无需调参。
分析中建立了一个关于鞅差与自适应选择的随机向量之间内积期望的新界，从而实现紧密的收敛控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。