QUICK REVIEW

[論文レビュー] ATOMO: Communication-efficient Learning via Atomic Sparsification

Hongyi Wang, Scott Sievert|arXiv (Cornell University)|Jun 11, 2018

Stochastic Gradient Optimization Techniques参考文献 5被引用数 129

ひとこと要約

ATomoは、原子分解を用いた確率的勾配のスパース化の一般的な枠組みを導入し、QSGDとTernGradを統合し、ニューラルネットワークの勾配に対してSVDベースのスパース化を適用した場合にスピードアップを示す。

ABSTRACT

Distributed model training suffers from communication overheads due to frequent gradient updates transmitted between compute nodes. To mitigate these overheads, several studies propose the use of sparsified stochastic gradients. We argue that these are facets of a general sparsification method that can operate on any possible atomic decomposition. Notable examples include element-wise, singular value, and Fourier decompositions. We present ATOMO, a general framework for atomic sparsification of stochastic gradients. Given a gradient, an atomic decomposition, and a sparsity budget, ATOMO gives a random unbiased sparsification of the atoms minimizing variance. We show that recent methods such as QSGD and TernGrad are special cases of ATOMO and that sparsifiying the singular value decomposition of neural networks gradients, rather than their coordinates, can lead to significantly faster distributed training.

研究の動機と目的

任意の原子分解においてスパース化を適用して通信を削減する、確率的勾配の一般的なスパース化手法を動機づけ、形式化する。
既存の手法であるQSGDやTernGradがATomoフレームワークの特殊ケースであることを示す。
層勾配の特異値分解(SVD)をスパース化することで、同じ通信予算で学習速度を向上させることを示す。
異なる原子分解にわたるスパース性制約下での分散最小化に関する理論的保証を提供する。
標準的なデータセットとアーキテクチャでSpectral-ATomoをQSGDおよびTernGradと比較評価し、スピードアップと精度への影響を定量化する。

提案手法

単位ノルムの原子 a_i を持つ原子分解 g = sum_i lambda_i a_i を定義する。
不偏な原子スパース化を提案する: g_hat = sum_i (lambda_i t_i / p_i) a_i で t_i ~ Bernoulli(p_i) かつ固定のスパース性予算 sum_i p_i = s。
スパース性制約の下で E||g_hat||^2 を最小化する閉じ form 最適化を解き、選択された分解に応じて lambda_i に依存する最適な p_i を得る。
1-bit QSGD と TernGrad が特定の p_i を用いた ATomo の特殊ケースとして現れ、これらのレジームで分散最適性を証明する。
ATomo を行列へ拡張し、要素ごとのスパース化とスペクトル（SVD）スパース化を比較し、Spectral-ATomo を導入する。
同じ通信コストでスペクトルスパース化が要素ごとのスパース化より低い分散をもたらす条件を提供する。

実験結果

リサーチクエスチョン

RQ1固定された通信予算の下で、統一された原子分解フレームワークは不偏勾配スパース化の最適な分散を達成できるか？
RQ2どの原子分解（要素ごと、SVD、フーリエなど）で、通信コストと収束分散の間で最良のトレードオフが得られるか？
RQ3層勾配のSVDをスパース化することで、要素ごとスパース化法と比較して精度を損なうことなく学習時間を短縮できるか？
RQ4QSGDとTernGradがATomoの正確なインスタンスとなるのはいつで、どのレジームでそれらが最適になるのか？
RQ5標準のCNN／データセットでのSpectral-ATomoの実用的な性能利得は何か？

主な発見

ATomo は、任意の原子分解にわたる分散最小化のための不偏勾配推定量の分散最小化の閉じた解を提供する。
1-bit QSGD と TernGrad は ATomo の特殊ケースであり、それぞれのパラメータ領域で最適である。
層勾配の特異値分解（Spectral-ATomo）のスパース化は、同じ通信予算下で要素ごとのスパース化より学習を速くする可能性がある。
Spectral-ATomo と QSGD は、実証評価で QSGD に対して約2倍、TernGrad に対して約3倍の学習時間のスピードアップを達成できる（論文中で文脈化）。
CIFAR-10、CIFAR-100、SVHN の ResNet-18 および VGG-11-BN を用いた実験は、Spectral-ATomo が精度を維持しつつ大幅な速度向上を達成することを示し、スパース性/ q-bit 設定に応じて変化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。