QUICK REVIEW

[論文レビュー] Error Feedback Fixes SignSGD and other Gradient Compression Schemes

Sai Praneeth Karimireddy, Quentin Rebjock|arXiv (Cornell University)|Jan 28, 2019

Stochastic Gradient Optimization Techniques被引用数 153

ひとこと要約

本論文は、偏った勾配圧縮法（例えば SignSGD）では収束しない場合や一般化が不十分になる可能性があることを示し、誤差フィードバックを用いた EF-SGD を導入して SGD の収束速度を回復させ、圧縮でも一般化を改善する。

ABSTRACT

Sign-based algorithms (e.g. signSGD) have been proposed as a biased gradient compression technique to alleviate the communication bottleneck in training large neural networks across multiple workers. We show simple convex counter-examples where signSGD does not converge to the optimum. Further, even when it does converge, signSGD may generalize poorly when compared with SGD. These issues arise because of the biased nature of the sign compression operator. We then show that using error-feedback, i.e. incorporating the error made by the compression operator into the next step, overcomes these issues. We prove that our algorithm EF-SGD with arbitrary compression operator achieves the same rate of convergence as SGD without any additional assumptions. Thus EF-SGD achieves gradient compression for free. Our experiments thoroughly substantiate the theory and show that error-feedback improves both convergence and generalization. Code can be found at \url{https://github.com/epfml/error-feedback-SGD}.

研究の動機と目的

SIGNSGD などの符号ベース勾配圧縮の限界を示す。収束しない可能性や一般化性能の低下を含む。
圧縮下で収束を可能にし、SGD の速度を維持する誤差フィードバック機構（EF-SGD）を提案・分析する。
非凸および非滑らか設定の理論的保証を提供する。
大幅な通信削減を伴いながら、EF-SGD が SGD の性能と一致することを経験的に検証する。

提案手法

誤差フィードバックを取り入れ、圧縮誤差を次のステップに取り込む SignSGD の変種 EF-SIGNSGD を導入する。
圧縮機を δ-近似演算子としてモデル化し、標準的な滑らかさおよび分散仮定の下で EF-SGD が SGD に近いレートで収束することを証明する。
誤差フィードバックにより反復が勾配の span に維持され、圧縮によるバイアスを緩和することを示す。
非凸および非滑らか設定へ解析を拡張し、明示的な収束境界を提示する。
CIFAR-10/100 に対して VGG および ResNet を用いて実証的に検証し、SGD、SIGNSGD、SIGNSGDM と比較する。

実験結果

リサーチクエスチョン

RQ1SIGNSGD のような偏った勾配圧縮スキームは、SGD と同等の収束と一般化を達成できるのか、それとも標準仮定の下で本質的に失敗するのか。
RQ2圧縮勾配に誤差フィードバックを付加することで、収束を回復し一般化を改善して SGD に匹敵するか。
RQ3圧縮下での滑らかな設定および非滑らかな設定における EF-SGD の理論的収束速度は何か。
RQ4深層ネットワークにおける経験的な EF-SIGNSGD の性能は、SGD および他の符号ベース法と比較して、バッチサイズを横断してどうか。

主な発見

バッチサイズ	SGDM	SIGNSGD	SIGNSGDM	EF-SIGNSGD
128	75.35	-2.21	-3.15	-0.92
32	76.22	-3.04	-3.57	-0.79
8	74.91	-36.35	-6.60	-0.64

SignSGD は収束に失敗することがあり、偏った勾配圧縮の下で一般化は SGD より悪くなる可能性がある。
誤差フィードバック（EF-SGD）を組み込むと、非凸滑らかな目的関数に対して SGD に一致する収束速度をもたらし、圧縮をほぼ無料で実現する。
EF-SIGNSGD は反復を過去の勾配の span に保ち、過剰パラメトリゼーション設定で一般化を SGD レベルに近づける。
CIFAR-10/100 上の ResNet/VGG の実証結果は、EF-SIGNSGD が SIGNSGD および SIGNSGDM を上回り、SGD に近く、約 64x の通信削減を実現。
理論結果は非滑らかな凸多体系にも拡張され、圧縮誤差が収束速度の主項に影響を与える。
CIFAR-100 におけるEF-SIGNSGD の一般化ギャップは、SIGNSGD/ALL の代替よりも大幅に小さく、特に小さなバッチサイズで顕著。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。