QUICK REVIEW

[论文解读] GIANT: Globally Improved Approximate Newton Method for Distributed Optimization

Shusen Wang, Fred Roosta|arXiv (Cornell University)|Sep 11, 2017

Stochastic Gradient Optimization Techniques被引用 75

一句话总结

GIANT 是一种分布式 Newton 型优化方法，利用在各工作节点局部计算的近似牛顿方向经由跨工作节点的平均来形成全局方向，从而实现通信高效、在若干一阶和二阶基线之上具有可证明的更快收敛，并且只有一个调参参数。

ABSTRACT

For distributed computing environment, we consider the empirical risk minimization problem and propose a distributed and communication-efficient Newton-type optimization method. At every iteration, each worker locally finds an Approximate NewTon (ANT) direction, which is sent to the main driver. The main driver, then, averages all the ANT directions received from workers to form a {\\it Globally Improved ANT} (GIANT) direction. GIANT is highly communication efficient and naturally exploits the trade-offs between local computations and global communications in that more local computations result in fewer overall rounds of communications. Theoretically, we show that GIANT enjoys an improved convergence rate as compared with first-order methods and existing distributed Newton-type methods. Further, and in sharp contrast with many existing distributed Newton-type methods, as well as popular first-order methods, a highly advantageous practical feature of GIANT is that it only involves one tuning parameter. We conduct large-scale experiments on a computer cluster and, empirically, demonstrate the superior performance of GIANT.

研究动机与目标

解决分布式经验风险最小化的计算与通信瓶颈。
开发一种牛顿型方法，在利用局部曲率信息的同时最小化跨节点通信。
给出理论保证，显示相比一阶方法和现有分布式牛顿方法具有更好的收敛速率。
在大规模分布式数据集上证明实际性能提升。

提出的方法

每个工作节点使用其数据子集计算本地近似牛顿（ANT）方向。
局部 ANT 方向通过用共轭梯度法求解的 Hessian-向量积获得，避免显式形成 Hessian。
GIANT 方向是本地 ANT 方向的平均值（在 Hessian 意义上的调和平均），从而得到全局改进的更新：p_t ≈ (1/m) sum_i H̃_{t,i}^{-1} g_t。
每次迭代的通信仅限于发送 d 维向量，而不是 d×d 矩阵。
该方法只有一个调参参数：本地求解的 CG 最大迭代次数。
收敛性分析覆盖带全局收敛性的二次损失，以及带有线性-二次局部收敛的通用光滑损失，在标准的 Hessian Lipschitz 假设下。

实验结果

研究问题

RQ1相较于现有的二阶方法，GIANT 在分布式设置下是否能实现对二次目标的全局收敛并提升收敛速率？
RQ2在聚合局部计算方向时，调和平均 Hessian 近似如何影响通信复杂性与实际性能？
RQ3当局部子问题解是近似求解（例如通过 CG）时，其收敛性保证是什么，它们与精确解之比较如何？
RQ4在大规模真实数据集上，GIANT 与已建立的基线（AGD、L-BFGS、DANE）相比在训练目标值和测试误差方面的实证表现如何？

主要发现

GIANT 实现了一个通信高效的更新，在每次迭代的通信量按 d 维而非 d^2 维尺度，通过对局部方向进行平均并避免显式传输 Hessian。
对于二次损失，GIANT 实现全局收敛，且对条件数的依赖为对数级别，优于既有的分布式牛顿方法。
对于一般光滑损失，GIANT 展现出线性-二次局部收敛，线性项由 Hessian 近似驱动，二次项由非二次目标效应驱动。
GIANT 在多个数据集的大规模逻辑回归任务上展示出优越的实证表现，在相同的墙钟时间内，训练目标值和测试误差方面均优于 AGD、L-BFGS 和 DANE。
该方法仅需一个调参参数（最大 CG 迭代次数），并且支持非精确本地求解而不牺牲收敛性保证。
在实验中添加的线搜索提高了鲁棒性且不需要额外的调参，保持了 GIANT 的整体简洁性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。