[論文レビュー] AdaComp : Adaptive Residual Gradient Compression for Data-Parallel Distributed Training
AdaCompは適応的で局所的な残差勾配圧縮を導入し、ミニバッチと層全体でそのレートを自己調整する。FC/LSTMで約200x、 conv層で約40xのエンドツーエンド圧縮を実現し、精度劣化はほとんどない。
Highly distributed training of Deep Neural Networks (DNNs) on future compute platforms (offering 100 of TeraOps/s of computational capacity) is expected to be severely communication constrained. To overcome this limitation, new gradient compression techniques are needed that are computationally friendly, applicable to a wide variety of layers seen in Deep Neural Networks and adaptable to variations in network architectures as well as their hyper-parameters. In this paper we introduce a novel technique - the Adaptive Residual Gradient Compression (AdaComp) scheme. AdaComp is based on localized selection of gradient residues and automatically tunes the compression rate depending on local activity. We show excellent results on a wide spectrum of state of the art Deep Learning models in multiple domains (vision, speech, language), datasets (MNIST, CIFAR10, ImageNet, BN50, Shakespeare), optimizers (SGD with momentum, Adam) and network parameters (number of learners, minibatch-size etc.). Exploiting both sparsity and quantization, we demonstrate end-to-end compression rates of ~200X for fully-connected and recurrent layers, and ~40X for convolutional layers, without any noticeable degradation in model accuracies.
研究の動機と目的
- データ並列分散DNNトレーニングにおける通信ボトルネックに対処する。
- さまざまな層タイプに対して普遍的で計算に友好な勾配圧縮スキームを開発する。
- 追加のチューニングなしにミニバッチ、層、ハイパーパラメータを横断して圧縮率を自動適応させる。
- 疎性と量子化を活用して高いエンドツーエンド圧縮を達成しつつ収束を維持する。
- データセット、アーキテクチャ、オプティマイザを跨いでロバスト性を示す。
提案手法
- 層の残差ベクトルを固定サイズのビンに分割し、重要な勾配を特定するためにビンごとの最大値を計算する。
- 各ビン内で局所最大のみならず、スケール因子(経験的に2x)を残差に適用した自己調整閾値を用いて近傍の勾配も選択する。
- 選択された勾配を量子化して圧縮を高め、収束を維持するために残差を送る。
- AdaCompを各層ごとに独立して適用し、学習者は圧縮勾配を交換してから学習者間で平均化して重みを更新する。
- 量子化表現の符号+スケールとして、g_maxの絶対値の平均を用いた単一の層全体スケール値を使用する。
- この方法は新たなハイパーパラメータ1つ(L_T)だけが必要で、グローバルソートなしにO(N)の計算を実現する。
実験結果
リサーチクエスチョン
- RQ1勾配通信を、FC、Conv、再帰型などの層タイプやネットワークアーキテクチャに対して頑健に圧縮するにはどうすればよいか。
- RQ2局所適応型の閾値ベース勾配選択スキームは、多様なデータセットとオプティマイザで収束を保てるか。
- RQ3精度を損なうことなく、異なる層タイプでエンドツーエンドの圧縮率はいくつ達成可能か。
- RQ4ミニバッチサイズと学習者数は、AdaCompで達成可能な圧縮にどう影響するか。
- RQ5大規模分散システムに対してスケール可能で、かつアクセラレータに優しいか。
主な発見
- AdaCompは全結合および再帰層で約200x、畳み込み層で約40xのエンドツーエンド圧縮を達成する。
- 圧縮はCNNs、DNNs、LSTMs上でMNIST、CIFAR10、ImageNet、BN50、Shakespeareデータセットを跨ってモデル精度を維持する。
- さまざまなミニバッチサイズと学習者数に対してSGDおよびAdamオプティマイザで収束を維持する。
- AdaCompは自己調整閾値のおかげで超高圧縮率にも頑健であり、従来の方式が過度の圧縮で発散するのとは異なる。
- ミニバatchサイズを増やすと実現可能な圧縮が低下する一方、学習者数を増やすと精度を維持しつつAdaCompの圧縮を高められる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。