[论文解读] Structured Sparsity via Alternating Direction Methods
该论文提出了一种统一的增广拉格朗日框架,采用交替方向法求解具有重叠组套索惩罚($l_1/l_2$ 和 $l_1/l_\infty$)的结构化稀疏问题。该框架引入了 APLM-S 和 FISTA-p 算法,分别实现了 $O(1/k)$ 和 $O(1/k^2)$ 的收敛速率,且在基准数据集上无需线搜索即可实现比 FISTA 和 ADAL 更快的收敛速度。
We consider a class of sparse learning problems in high dimensional feature space regularized by a structured sparsity-inducing norm which incorporates prior knowledge of the group structure of the features. Such problems often pose a considerable challenge to optimization algorithms due to the non-smoothness and non-separability of the regularization term. In this paper, we focus on two commonly adopted sparsity-inducing regularization terms, the overlapping Group Lasso penalty $l_1/l_2$-norm and the $l_1/l_\infty$-norm. We propose a unified framework based on the augmented Lagrangian method, under which problems with both types of regularization and their variants can be efficiently solved. As the core building-block of this framework, we develop new algorithms using an alternating partial-linearization/splitting technique, and we prove that the accelerated versions of these algorithms require $O(\frac{1}{\sqrtε})$ iterations to obtain an $ε$-optimal solution. To demonstrate the efficiency and relevance of our algorithms, we test them on a collection of data sets and apply them to two real-world problems to compare the relative merits of the two norms.
研究动机与目标
- 为解决高维学习问题中非光滑、非可分的结构化稀疏诱导正则化项的优化挑战。
- 基于增广拉格朗日方法,为求解 $l_1/l_2$ 和 $l_1/l_\infty$ 组稀疏问题构建统一框架。
- 设计高效、易于调参的算法,避免线搜索并实现快速收敛速率。
- 利用所提出的框架,在真实世界数据集上比较 $l_1/l_2$ 与 $l_1/l_\infty$ 惩罚的实证性能。
提出的方法
- 通过变量分裂将结构化稀疏问题建模为约束优化问题,以解耦非光滑正则化项与光滑损失函数。
- 应用增广拉格朗日方法求解等价的约束问题,实现子问题的分解,且子问题具有闭式解或高效解法。
- 提出 APLM-S(带跳过与部分分裂的交替线性化方法),适用于 $l_1/l_2$ 和 $l_1/l_\infty$ 惩罚,实现 $O(1/k)$ 收敛速率。
- 开发 FISTA-p 算法,一种结合部分线化的加速近端方法,对两种正则化类型均实现 $O(1/k^2)$ 收敛速率。
- 在增广拉格朗日框架中采用动态惩罚参数更新策略,以提升收敛速度。
- 在大规模场景中,使用 PCG(预处理共轭梯度法)高效求解子问题。
实验结果
研究问题
- RQ1能否基于增广拉格朗日方法,为高效求解 $l_1/l_2$ 和 $l_1/l_\infty$ 结构化稀疏问题构建统一框架?
- RQ2基于部分线化与分裂的新算法在这些结构化稀疏问题中可实现何种收敛速率?
- RQ3在合成与真实世界数据集上,所提出的 APLM-S 和 FISTA-p 算法在速度与精度上相较于 FISTA、ADAL 和 ProxFlow 表现如何?
- RQ4在真实世界应用(如图像去噪与基因选择)中,$l_1/l_2$ 与 $l_1/l_\infty$ 惩罚的相对性能如何?
- RQ5所提算法能否在无需每轮迭代进行线搜索或目标函数评估的情况下实现快速收敛?
主要发现
- FISTA-p 算法实现了 $O(1/k^2)$ 收敛速率,显著快于 APLM-S 和标准 FISTA 的 $O(1/k)$ 速率。
- 在具有 $l_1/l_2$ 正则化的 DCT 合成数据集上,FISTA-p 在 5,000 个特征下仅用 1.83 秒即获得解,优于 FISTA(3.02 秒)和 ProxFlow(1.97 秒)的 CPU 时间。
- 在具有 $l_1/l_\infty$ 正则化的 DCT 数据集(30,000 个特征)上,FISTA-p 仅用 8.95 秒求解,远快于 FISTA(2.24e+002 秒)和 ADAL(1.12e+002 秒)。
- 在乳腺癌数据集上使用 $l_1/l_2$ 正则化时,FISTA-p 在 6.86 秒内达到最优目标值 2.9331e+003,优于 FISTA(5.11e+001 秒)和 ProxGrad(7.76e+002 秒)。
- 所提出的 APLM-S 与 FISTA-p 框架在大规模问题(包括高达 30,000 个特征的数据集)上表现出卓越的可扩展性与鲁棒性。
- 所有算法均无需线搜索,且在所有测试数据集上均保持稳定性能,证实了其实际可用性与易调参特性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。