QUICK REVIEW

[论文解读] SDCA without Duality, Regularization, and Individual Convexity

Shai Shalev‐Shwartz|arXiv (Cornell University)|Feb 4, 2016

Stochastic Gradient Optimization Techniques参考文献 21被引用 35

一句话总结

该论文提出了一种无需显式正则化或依赖对偶性的随机对偶坐标上升（SDCA）的双自由变体，只要期望损失是强凸的，即可在凸和非凸个体损失函数下实现线性收敛。该方法在凸损失下的收敛速率为$ ilde{O}(ar{L}/ \lambda + n)$，在非凸损失下的收敛速率为$ ilde{O}(n^{3/4} dotsqrt{ \bar{L}/ \lambda} + n)$，与无需对偶性或正则化的已知界相比，表现相当或更优。

ABSTRACT

Stochastic Dual Coordinate Ascent is a popular method for solving regularized loss minimization for the case of convex losses. We describe variants of SDCA that do not require explicit regularization and do not rely on duality. We prove linear convergence rates even if individual loss functions are non-convex, as long as the expected loss is strongly convex.

研究动机与目标

开发一种不依赖对偶性或显式正则化的SDCA变体。
在保持收敛保证的前提下，将SDCA扩展至非凸个体损失函数。
仅在期望损失强凸且个体函数光滑的条件下，实现线性收敛速率。
通过用$ \bar{L}$替代$L_{\max}$并减少非凸设置下对$n$的依赖，改进先前的界。

提出的方法

提出一种基于原始问题的SDCA变体，仅使用个体损失函数的梯度，消除了对对偶变量或基于对偶的更新的需求。
引入采样分布$q_i = (L_i + \bar{L}) / (2n\bar{L})$，以平衡探索与收敛。
采用基于无偏梯度估计且方差递减的原始更新规则，类似于SGD但具有方差减少特性。
使用李雅普诺夫函数$C_t = \|w^{(t)} - w^*\|^2 + \sum_i \|\alpha_i^{(t)} - \alpha_i^*\|^2 / (\lambda n)$分析收敛性。
通过光滑性和强凸性假设推导收敛界，利用梯度的自有有界性分析凸分量。
应用加速技术，将非凸情况下的收敛速率从$ \tilde{O}(L_{\max}^2/\lambda^2 + n)$提升至$ \tilde{O}(n^{3/4}\sqrt{\bar{L}/\lambda} + n)$。

实验结果

研究问题

RQ1是否可以重新表述SDCA，使其不依赖对偶性或显式正则化，同时保持收敛保证？
RQ2当个体损失函数为非凸时，只要期望损失是强凸的，线性收敛是否仍然成立？
RQ3是否可以通过在界中用平均光滑度$ \bar{L}$替代$L_{\max}$来改进收敛速率？
RQ4在加速的非凸情况下，$n^{3/4}$的依赖关系是否必要，还是可降低至$n^{1/2}$？
RQ5对于无正则化目标，是否可实现与正则化目标相同的收敛速率？

主要发现

无双SDCA变体在凸个体损失下实现了$ \tilde{O}(\bar{L}/ \lambda + n)$的收敛速率，与SVRG的最佳已知速率相当。
对于非凸个体损失，该方法在未加速时实现了$ \tilde{O}(\bar{L}^2/\lambda^2 + n)$的收敛速率。
通过加速，收敛速率提升至$ \tilde{O}(n^{3/4}\sqrt{\bar{L}/\lambda} + n)$，显示出对条件数的更好依赖性，优于先前未加速的界。
该方法消除了对显式正则化和对偶性的需求，使方法可应用于无正则化和非凸问题。
分析表明，步长必须满足$\eta \leq \min\{\lambda/(4\bar{L}^2), 1/(4\lambda n)\}$以确保收敛。
通过Ohad Shamir的洞察，非凸情况下的改进界将先前的$n^{5/4}$项减少至$n^{3/4}$。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。