Skip to main content
QUICK REVIEW

[论文解读] Second-Order Stochastic Optimization for Machine Learning in Linear Time

Naman Agarwal, Brian Bullins|arXiv (Cornell University)|Feb 12, 2016
Stochastic Gradient Optimization Techniques参考文献 31被引用 42
一句话总结

本文提出 LiSSA,一种随机二阶优化算法,其每轮迭代的计算成本与数据稀疏性呈线性关系,实现了类似牛顿法的收敛速度,从而使得大规模机器学习中的实用二阶优化成为可能。该方法在运行时间上与一阶方法相当或更优,同时保持了理论保证和在真实数据集上的实际性能。

ABSTRACT

First-order stochastic methods are the state-of-the-art in large-scale machine learning optimization owing to efficient per-iteration complexity. Second-order methods, while able to provide faster convergence, have been much less explored due to the high cost of computing the second-order information. In this paper we develop second-order stochastic methods for optimization problems in machine learning that match the per-iteration cost of gradient based methods, and in certain settings improve upon the overall running time over popular first-order methods. Furthermore, our algorithm has the desirable property of being implementable in time linear in the sparsity of the input data.

研究动机与目标

  • 通过实现高效的海森矩阵近似,降低传统二阶方法在大规模机器学习中每轮迭代的高成本。
  • 开发一种随机二阶算法,在保持快速收敛的同时,实现每轮迭代的线性时间复杂度。
  • 在训练样本数超过维度的场景下,实现比一阶方法更优的运行时间。
  • 确保算法在输入数据稀疏性上实现线性时间复杂度,使其适用于高维稀疏数据集。
  • 提供收敛性的理论保证,且相比现有方法具有更优的运行时间边界。

提出的方法

  • 提出 LiSSA,一种基于矩阵逆的泰勒近似的随机海森矩阵逆估计器,可实现高效的近似牛顿步长。
  • 通过采样单个数据样本成分,对海森矩阵逆进行随机近似,将每轮迭代成本降低至 O(d)。
  • 引入带有参数 S₁ 和 S₂ 的方差减少估计器,以控制收敛性和稳定性,其中 S₂ 设为 O(κ ln κ) 以实现最佳性能。
  • 在 LiSSA-Sample 中利用 [LMP13, CLM+15] 中的矩阵采样技术,提升在 m > d 场景下的运行时间保证。
  • 设计算法使其对坐标系不变且具备曲率感知能力,继承牛顿法的几何优势。
  • 通过自适应参数调优实现该方法,在实际应用中使用 S₁ = 1 且 S₂ ≈ κ ln κ,实验结果验证了其有效性。

实验结果

研究问题

  • RQ1能否通过将每轮迭代成本降低至线性时间,使二阶优化在大规模机器学习中变得实用?
  • RQ2随机海森矩阵逆估计器能否在保持高效性的同时,实现与牛顿法相当的收敛速度?
  • RQ3在 m ≫ d 的场景下,所提方法是否在整体运行时间上优于一阶方法?
  • RQ4该算法能否在输入数据稀疏性上保持线性时间复杂度,从而适用于高维稀疏数据集?
  • RQ5海森矩阵逆估计器的方差是否可控,使得在实际参数设置下可获得理论收敛边界?

主要发现

  • LiSSA 在 Õ((m + S₁κ)d log(1/ε)) 时间内达到 ε-次优解,其中 S₁ 在理论上被限制在 O(κ²),而实际中常为 O(1)。
  • 与一阶方法相比,LiSSA 在迭代次数上收敛更快,并在真实数据集上表现出更优的时钟时间性能。
  • LiSSA 的运行时间与数据稀疏性呈线性关系,使其在高维稀疏数据(如文本或推荐系统)上具有高效性。
  • 实验表明,当 S₂ ≈ κ ln κ 时,LiSSA 达到最佳收敛性能,验证了理论对参数选择的预期。
  • 在条件良好的设置下,LiSSA 优于加速的一阶方法(如 APCG),但在极端病态条件下,APCG 因依赖 κ 而占据优势。
  • LiSSA-Sample 在 m > d 场景下,相比最先进凸优化方法,实现了更优的运行时间保证,得益于矩阵采样技术的运用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。