[论文解读] Variance Reduced Three Operator Splitting
本文提出基于 SAGA 和 SVRG 的方差缩减三算子分裂方法,通过利用近端分解,高效处理复杂的非光滑惩罚项(如总变差、带重叠的组套索和趋势过滤)。该方法在使用固定步长时实现收敛,且渐近收敛速率与完整梯度方法相当,同时保持了适合大规模问题的低每轮计算成本。
Despite the rise to fame of incremental variance-reduced methods in recent years, their use in nonsmooth optimization is still limited to few simple cases. This is due to the fact that existing methods require to evaluate the proximity operator for the nonsmooth terms, which can be a costly operation for complex penalties. In this work we introduce two variance-reduced incremental methods based on SAGA and SVRG that can efficiently take into account complex penalties which can be expressed as a sum of proximal terms. This includes penalties such as total variation, group lasso with overlap and trend filtering, to name a few. Furthermore, we also develop sparse variants of the proposed algorithms which can take advantage of sparsity in the input data. Like other incremental methods, it only requires to evaluate the gradient of a single sample per iteration, and so is ideally suited for large scale applications. We provide a convergence rate analysis for the proposed methods and show that they converge with a fixed step-size, achieving in some cases the same asymptotic rate as their full gradient variants. Empirical benchmarks on 3 different datasets illustrate the practical advantages of the proposed methods.
研究动机与目标
- 解决增量方差缩减方法在非光滑优化中因近端算子计算成本高而导致的应用受限问题。
- 实现对可表达为近端项之和的复杂惩罚项(如总变差和带重叠的组套索)的高效优化。
- 开发利用输入数据稀疏性的稀疏变体,以进一步提升效率。
- 在使用固定步长时实现收敛,且在某些情况下与完整梯度方法的渐近收敛速率相匹配。
提出的方法
- 提出基于 SAGA 和 SVRG 的增量方法,通过维护梯度的运行平均值来降低方差。
- 将复杂的非光滑惩罚项分解为近端项之和,从而通过近端算子实现高效的增量更新。
- 引入一种稀疏变体,仅选择性地更新梯度中的非零分量,以利用数据中的稀疏性。
- 采用三算子分裂框架来处理三项之和:一个光滑损失函数、一个非光滑正则项和一个结构化惩罚项。
- 维护过去梯度的历史记录,并结合当前梯度与平均过去的梯度来更新解。
- 在整个迭代过程中使用固定步长,确保无需线搜索即可实现稳定收敛。
实验结果
研究问题
- RQ1能否将方差缩减的增量方法扩展至处理可表示为近端项之和的复杂非光滑惩罚项?
- RQ2所提出的方法是否在使用固定步长时实现收敛,且与完整梯度变体的渐近收敛速率相匹配?
- RQ3能否利用输入数据中的稀疏性进一步加速所提出算法?
- RQ4所提出方法在大规模优化问题上与现有最先进方法相比的实证表现如何?
主要发现
- 所提出的基于 SAGA 和 SVRG 的方法在使用固定步长时实现收敛,在某些情况下其渐近收敛速率与完整梯度对应方法相同。
- 通过将惩罚项分解为近端分量,该方法能高效处理如总变差、带重叠的组套索和趋势过滤等复杂惩罚项。
- 算法的稀疏变体在输入数据呈现稀疏性时显著降低了计算成本。
- 在三个真实世界数据集上的实证基准测试表明,所提出方法在收敛速度和可扩展性方面具有实际优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。