QUICK REVIEW

[論文レビュー] Federated Optimization:Distributed Optimization Beyond the Datacenter

Jakub Konečný, H. Brendan McMahan|arXiv (Cornell University)|Nov 11, 2015

Stochastic Gradient Optimization Techniques参考文献 13被引用数 580

ひとこと要約

この論文は、データが多数のデバイスに分散され、非独立同分布（non-IID）かつアンバランスな状況下で、中央集権的なモデルを効率的に学習するための通信効率の高い分散学習フレームワーク「Federated Optimization」を導入する。著者らは、特徴ごとの適応的平均化をスパarsityに配慮した行列を用いて実現するSVRGの変種であるDSVRGを提案し、収束を向上させ、極端なデータ偏りやスパarsityに対しても非常に少ない通信ラウンドでほぼ最適な性能を達成する。

ABSTRACT

We introduce a new and increasingly relevant setting for distributed optimization in machine learning, where the data defining the optimization are distributed (unevenly) over an extremely large number of odes, but the goal remains to train a high-quality centralized model. We refer to this setting as Federated Optimization. In this setting, communication efficiency is of utmost importance. A motivating example for federated optimization arises when we keep the training data locally on users' mobile devices rather than logging it to a data center for training. Instead, the mobile devices are used as nodes performing computation on their local data in order to update a global model. We suppose that we have an extremely large number of devices in our network, each of which has only a tiny fraction of data available totally; in particular, we expect the number of data points available locally to be much smaller than the number of devices. Additionally, since different users generate data with different patterns, we assume that no device has a representative sample of the overall distribution. We show that existing algorithms are not suitable for this setting, and propose a new algorithm which shows encouraging experimental results. This work also sets a path for future research needed in the context of federated optimization.

研究の動機と目的

各デバイスがわずかな、代表的でないデータサブセットしか保持しない多数のデバイスに分散されたデータにおいて、高品質な中央集権的モデルを学習する課題に対処すること。
データがバランス良く、IID（独立同分布）であると仮定し、データポイント数より少ないノード数を想定する既存の通信効率の良いアルゴリズムの限界を克服すること。
制限された接続性と高い計算能力を持つ実世界のモバイルおよびエッジデバイスに適したスケーラブルな最適化手法を設計すること。
データをデバイス上に保持したまま、効果的なグローバルモデルの更新を可能にすることで、プライバシーを守った機械学習を実現すること。
データの偏りが著しく、非IIDな分布である状況でも、通信効率を達成できるかどうかを実証すること。

提案手法

スパースでアンバランスかつ非IIDなデータを想定したフェデレーテッド環境に特化したSVRGの変種であるDSVRG（Distributed Stochastic Variance Reduced Gradient）を提案する。
各特徴の出現頻度に応じて更新をスケーリングするため、特徴ごとの適応的行列Aを導入し、A_ii = K / ω_i と定義する。これにより、まれな特徴の収束が向上する。
通信の回数を最小限に抑えるために、各デバイスで複数回のイテレーションをローカルで実行する。
適応的行列を用いて、完全平均化と独立した更新の間を補間し、少ないノードにしか存在しない特徴に対してはより大きなステップをとる。
特徴分布におけるスパarsityパターンを活用して更新の大きさをガイドし、データの偏りに対してより頑健な性能を実現する。
デバイスが生データではなくモデルの更新情報のみを送信する通信効率の良いプロトコルを実装し、プライバシーを保護するとともに帯域幅を削減する。

実験結果

リサーチクエスチョン

RQ1多数のデバイスに分散され、それぞれがわずかな、代表的でないデータサブセットしか持たない状況下で、通信効率の良い最適化アルゴリズムは信頼性を持って収束するのか？
RQ2最適化手法は、デバイス間で極端なデータの偏りや非IID分布に対応するためにどのように変更可能か？
RQ3特徴のスパarsityは、フェデレーテッドラーニングにおける効果的な分散最適化アルゴリズムの設計においてどのような役割を果たすか？
RQ4特徴の出現頻度に基づいた勾配の適応的重み付けは、フェデレーテッド環境で収束速度とモデル品質を向上させられるか？
RQ5既存の通信効率の良いアルゴリズムは、アンバランスで非IIDなデータを伴う現実的なフェデレーテッドラーニングのシナリオではどの程度失敗するのか？

主な発見

DANE や DiSCO といった既存の通信効率の良いアルゴリズムは、フェデレーテッド最適化設定において、データの偏りや非IID特性のため発散する。
CoCoA は収束はするが、単純な分散勾配降下法よりも著しく遅く、この設定では非効率であることが示された。
DSVRG は非常に少ない通信ラウンドでほぼ最適な性能を達成し、アンバランスで非IIDなデータに対しても強い収束性を示した。
DSVRG の性能は、ランダムに再シャッフルされたデータを用いたベースラインとほとんど区別がつかないほどであり、データの偏りに対して非常に頑健であることが示された。
適応的行列 A の使用は性能を著しく向上させ、その省略により結果が著しく劣化することが確認された。
本手法は最小限の通信で効果的なモデル学習を可能にし、途切れやすい接続性を持つモバイルおよびエッジデバイスに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。