QUICK REVIEW

[論文レビュー] GIANT: Globally Improved Approximate Newton Method for Distributed Optimization

Shusen Wang, Fred Roosta|arXiv (Cornell University)|Sep 11, 2017

Stochastic Gradient Optimization Techniques被引用数 75

ひとこと要約

GIANT は、局所的に計算された近似ニュートン方向をワーカー間で平均してグローバルな方向を形成し、通信効率が高く、いくつかの一階・二階のベースラインよりも理論的に高速に収束する分散型ニュートン法です。チューニングパラメータは1つのみ。

ABSTRACT

For distributed computing environment, we consider the empirical risk minimization problem and propose a distributed and communication-efficient Newton-type optimization method. At every iteration, each worker locally finds an Approximate NewTon (ANT) direction, which is sent to the main driver. The main driver, then, averages all the ANT directions received from workers to form a {\\it Globally Improved ANT} (GIANT) direction. GIANT is highly communication efficient and naturally exploits the trade-offs between local computations and global communications in that more local computations result in fewer overall rounds of communications. Theoretically, we show that GIANT enjoys an improved convergence rate as compared with first-order methods and existing distributed Newton-type methods. Further, and in sharp contrast with many existing distributed Newton-type methods, as well as popular first-order methods, a highly advantageous practical feature of GIANT is that it only involves one tuning parameter. We conduct large-scale experiments on a computer cluster and, empirically, demonstrate the superior performance of GIANT.

研究の動機と目的

分散型経験的リスク最小化の計算と通信のボトルネックに対処する。
局所曲率情報を活用しつつノード間通信を最小化するニュートン型法を開発する。
一階微分法および既存の分散ニュートン法と比較して改善された収束速度を示す理論的保証を提供する。
大規模分散データセット上で実用的な性能向上を示す。

提案手法

各ワーカーは自分のデータ部分集合を用いて局所的な近似ニュートン（ANT）方向を計算する。
局所ANT方向はヘッセ行列ベクトル積を共役勾配で解くことにより得られ、明示的なヘッセ行列の形成を避ける。
GIANT方向は局所ANT方向の平均（ヘッセ行列の意味で調和平均）であり、グローバルに改善された更新を生む: p_t ≈ (1/m) ∑_i H̃_{t,i}^{-1} g_t。
1回の反復あたりの通信は d次元ベクトルの送信に限定され、d×d 行列ではない。
単一の調整パラメータを使用する: 局所解法の最大CG反復回数。
収束解析は、標準的なリプシッツヘッセ行列仮定の下で、2次損失にはグローバル収束、一般的な滑らかな損失には線形-二次局所収束を含む。

実験結果

リサーチクエスチョン

RQ1GIANTは二次目的に対してグローバル収束を達成し、既存の二階の方法と比較して分散設定で改良された収束速度を示すことができるか？
RQ2局所的に計算された方向を集約する際、調和平均ヘッセ近似が通信複雑性と実用的な性能にどのように影響するか？
RQ3局所サブ問題解が厳密でない場合（例: CGを介して）どのような収束保証があり、それが厳密解とどのように比較されるか？
RQ4大規模な実世界データセット上で、確立されたベースライン（AGD、L-BFGS、DANE）に対してGIANTが実証的にどのように性能を発揮するか？

主な発見

GIANTは、局所方向の平均化と明示的なヘッセ行列の伝送を回避することにより、1回の反復あたりの通信を d^2 ではなく d にスケールさせる通信効率の高い更新を実現します。
二次損失の場合、条件数に対して対数的依存性を持つグローバル収束を達成し、従来の分散ニュートン法を上回る。
一般の滑らかな損失では、線形-二次局所収束を示し、線形項はヘッセ近似、二次項は非二次的目的効果による。
GIANTは大規模ロジスティック回帰タスクで、複数データセットにわたり、同じ経過時間内で訓練目的値とテスト誤差の点でAGD、L-BFGS、DANEを上回る卓越した実證性能を示す。
本手法はパラメータが1つだけ（最大CG反復回数）で、局所解法を厳密に行わなくても収束保証を損なわない。
実験におけるラインサーチは堅牢性を維持し、追加の調整を必要とせず、GIANT の全体的な単純さを保つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。