QUICK REVIEW

[论文解读] Stochastic DCA for minimizing a large sum of DC functions with application to Multi-class Logistic Regression

Hoai An Le Thi, Hoai Minh Le|arXiv (Cornell University)|Nov 10, 2019

Stochastic Gradient Optimization Techniques参考文献 51被引用 32

一句话总结

本论文提出用于最小化大量 DC 函数之和的随机和近似随机 DC 算法（SDCA 和 ISDCA），证明它们收敛到临界点，并将它们应用于多类逻辑回归的组变量选择，实验结果表现出色。

ABSTRACT

We consider the large sum of DC (Difference of Convex) functions minimization problem which appear in several different areas, especially in stochastic optimization and machine learning. Two DCA (DC Algorithm) based algorithms are proposed: stochastic DCA and inexact stochastic DCA. We prove that the convergence of both algorithms to a critical point is guaranteed with probability one. Furthermore, we develop our stochastic DCA for solving an important problem in multi-task learning, namely group variables selection in multi class logistic regression. The corresponding stochastic DCA is very inexpensive, all computations are explicit. Numerical experiments on several benchmark datasets and synthetic datasets illustrate the efficiency of our algorithms and their superiority over existing methods, with respect to classification accuracy, sparsity of solution as well as running time.

研究动机与目标

解决将 F(x) = (1/n) sum_i F_i(x) 的大规模 DC 函数之和最小化问题的动机与目标。
开发 SDCA 和 ISDCA，以通过每次迭代仅更新一部分 DC 成分来减少计算量。
为 SDCA 和 ISDCA 的收敛性提供保证（对临界点的几乎必然收敛）。
将所提方法应用于多类逻辑回归中的组变量选择，并在真实数据集和合成数据集上展示其高效性。

提出的方法

将每个 F_i 表示为 DC 函数 F_i = g_i - h_i，并聚合成 F = G - H，其中 G = (1/n) sum g_i，H = (1/n) sum h_i。
提出 SDCA，通过在每次迭代仅更新随机子集的 h_i 的下界并求解凸子问题（8）来实现。
将凸子问题定义为 min_x { G(x) - <v^l, x> }，其中 v^l ∈ ∂H(x^l)。
在较温和的条件下证明 SDCA 对临界点的几乎必然收敛；当 ρ(h_i) > 0 时，∑ ||x^{l}-x^{l-1}||^2 < ∞ 且 ||x^{l}-x^{l-1}|| → 0 a.s.。
通过允许 ε-子梯度和ε-解计算来引入 ISDCA，且 ∑ ε^l < ∞，以保持收敛性。
在多类逻辑回归中的组变量选择与非凸惩罚近似 ℓ_{q,0} 型正则化（通过 η_α）以及求解得到的 DC-规划中，展示 SDCA/ISDCA 的应用。

实验结果

研究问题

RQ1SDCA 是否能通过每次仅更新一部分分量来高效地最小化大量 DC 函数之和？
RQ2SDCA 及其不精确变体 ISDCA 是否几乎必然收敛到大规模 DC 目标的临界点？
RQ3如何将 SDCA 应用于具有非凸 ℓ_{q,0} 型正则化的多类逻辑回归的组变量选择？
RQ4在准确性、稀疏性和运行时间方面，与现有方法相比，该方法在大规模数据集上的表现如何？

主要发现

SDCA 和 ISDCA 均几乎必然收敛到大规模 DC 目标的临界点。
当仅更新部分 h_i 分量，且即使在不精确计算的情况下（ISDCA），SDCA 仍保持收敛性保证。
随机方法使在具有非凸惩罚的多类逻辑回归中的组变量选择问题上实现高效、可扩展的优化成为可能。
在大规模真实数据和合成数据集上的数值实验显示，与相关方法相比，分类准确性具有竞争力、稀疏性更高且运行时间更短。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。