QUICK REVIEW

[論文レビュー] Communication-Efficient Learning of Deep Networks from Decentralized Data

H. Brendan McMahan, Eider Moore|arXiv (Cornell University)|Feb 17, 2016

Privacy-Preserving Technologies in Data被引用数 5,172

ひとこと要約

Federated Averaging (FedAvg) を導入し、分散モバイルデバイスデータ上でディープネットワークを訓練する実用的な方法。モデルをローカルで更新し、中央サーバーで平均化することで、非 IID および不均衡データを扱いながら通信ラウンドを大幅に削減。

ABSTRACT

Modern mobile devices have access to a wealth of data suitable for learning models, which in turn can greatly improve the user experience on the device. For example, language models can improve speech recognition and text entry, and image models can automatically select good photos. However, this rich data is often privacy sensitive, large in quantity, or both, which may preclude logging to the data center and training there using conventional approaches. We advocate an alternative that leaves the training data distributed on the mobile devices, and learns a shared model by aggregating locally-computed updates. We term this decentralized approach Federated Learning. We present a practical method for the federated learning of deep networks based on iterative model averaging, and conduct an extensive empirical evaluation, considering five different model architectures and four datasets. These experiments demonstrate the approach is robust to the unbalanced and non-IID data distributions that are a defining characteristic of this setting. Communication costs are the principal constraint, and we show a reduction in required communication rounds by 10-100x as compared to synchronized stochastic gradient descent.

研究の動機と目的

分散したプライバシー保護が要求されるモバイルデバイスデータからデータを中心化せずに学習を動機づける。
深層ネットワークに適した実用的なフェデレーテッド最適化アルゴリズムを提案する。
複数のモデル、データセット、および非IIDデータシナリオでFedAvgを評価する。
通信効率の向上とデータヘテロ性へのロバスト性を定量化する。

提案手法

データがK個のクライアントに分割されたフェデレーテッド最適化問題を定義する： f(w)= (1/n) sum_i f_i(w) および F_k(w)= (1/n_k) sum_{i in P_k} f_i(w)。
FederatedAveraging (FedAvg) を導入する：クライアントはデータ上で複数回のローカルSGD更新を行い、その後サーバーは更新されたモデルを n_k/n の重みで平均化して新しいグローバルモデルを形成する。
計算と通信を C（各ラウンドあたりのクライアントの分率）、E（ローカルエポック数）、B（ローカルミニバッチサイズ）で制御する；u = E*n_k/B の更新がラウンドあたり発生するのを観察する。
FedSGDベースライン（一様なクライアントサブセットを用いて1ラウンドの勾配計算）と比較して通信ラウンド削減を示す。
IIDおよび非IIDデータ分割下で、MNISTバリアント（2NNとCNN）、CIFAR-10、およびShakespeare LSTMを、異なる C、E、B の下で実験的に検証する。

実験結果

リサーチクエスチョン

RQ1FedAvgは分散化された非IIDで不均衡なモバイルデバイスデータ上で深層ネットワークを訓練する際にどう機能するか？
RQ2フェデレーテッド最適化におけるローカル計算（E, B）と通信ラウンド（C）のトレードオフは？
RQ3局所的に訓練したモデルの平均化は、単純なフェデレーテッドSGDベースラインよりも一般化性が高い・収束が速いか？
RQ4非常に非IIDな分割と不均衡なクライアントデータ分布に対してFedAvgはどれくらい堅牢か？
RQ5画像と言語モデリングタスク全体で、通信削減と速度向上の規模はどれくらいか？

主な発見

FedAvgは、FedSGDと比較して、ターゲット精度に到達するまでの通信ラウンド数を劇的に削減し、しばしば数倍から1桁以上の削減を実現する。
各クライアントのローカル計算を増やす（Eと小さなBを用いる）と、通信速度の大幅な改善が得られ、IIDおよび非IIDデータ分割の両方でロバスト性が観察される。
局所で訓練したモデルの平均化は収束を加速させるだけでなく、ローカルデータセットが分離されていても一般化を改善できる正則化のような効果を提供する。
MNIST（2NNとCNN）、CIFAR-10、およびShakespeare LSTMの実験でFedAvgはFedSGDを上回り、非IIDかつ不均衡データシナリオを含む。
パフォーマンス向上は、フィードフォワードネット、CNN、LSTMなど異なるモデルファミリとデータスケールにわたり、数十万クライアントを含む大規模言語モデリング設定にも適用される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。