QUICK REVIEW

[論文レビュー] Distributed Training with Heterogeneous Data: Bridging Median- and Mean-Based Algorithms

Xiangyi Chen, Tiancong Chen|arXiv (Cornell University)|Jun 4, 2019

Stochastic Gradient Optimization Techniques参考文献 20被引用数 32

ひとこと要約

本稿では、非同一分布データ下での中央値ベースおよび平均ベースの分散最適化アルゴリズムのギャップを埋めるために、ノイズ摂動を用いた新たな勾配補正機構を提案する。これにより、データが非i.i.d.である状況下でもsignSGDおよびmedianSGDのグローバル収束が可能となり、通信複雑度を低く保ちつつ、現実的なフェデレーテッドラーニング環境における非凸最適化の収束が保証される。

ABSTRACT

Recently, there is a growing interest in the study of median-based algorithms for distributed non-convex optimization. Two prominent such algorithms include signSGD with majority vote, an effective approach for communication reduction via 1-bit compression on the local gradients, and medianSGD, an algorithm recently proposed to ensure robustness against Byzantine workers. The convergence analyses for these algorithms critically rely on the assumption that all the distributed data are drawn iid from the same distribution. However, in applications such as Federated Learning, the data across different nodes or machines can be inherently heterogeneous, which violates such an iid assumption. This work analyzes signSGD and medianSGD in distributed settings with heterogeneous data. We show that these algorithms are non-convergent whenever there is some disparity between the expected median and mean over the local gradients. To overcome this gap, we provide a novel gradient correction mechanism that perturbs the local gradients with noise, together with a series results that provable close the gap between mean and median of the gradients. The proposed methods largely preserve nice properties of these methods, such as the low per-iteration communication complexity of signSGD, and further enjoy global convergence to stationary solutions. Our perturbation technique can be of independent interest when one wishes to estimate mean through a median estimator.

研究の動機と目的

作業者間のデータが非i.i.d.である場合に、中央値ベースおよび符号ベースの分散最適化アルゴリズムに収束保証がないという問題に対処する。
データの非同一性下での中央値ベース（例：medianSGD）と平均ベース（例：SGD）最適化の理論的ギャップを埋める。
通信複雑度（signSGD）やByzantineロバスト性（medianSGD）といった望ましい特性を維持しつつ、非i.i.d.データ下での収束を保証する。
符号中央値方向を介したsignSGDとmedianSGDの背後にある隠れた関係を説明する統一的理論枠組みを提供する。
非凸分散最適化における非同一分布環境下で中央値と平均のギャップを埋める、証明可能な有効な摂動技術を開発する。

提案手法

局所勾配の中央値と平均の分布を一致させるために、制御されたノイズを局所勾配に加える摂動機構を導入する。
理論的分析により、摂動勾配が局所勾配の期待中央値と平均の乖離を低減することで収束を可能にすることを示す。
非同一分布データ下でのsignSGDおよびmedianSGDの収束バウンドを導出し、静的点へのグローバル収束を証明する。
有界分散およびLipschitz勾配仮定を満たす確率的近似フレームワークを用いて収束速度を分析する。
摂動技術により、中央値推定器を用いて平均を推定可能であることを確立し、これは独立に興味深い結果である。
座標ごとの中央値および符号操作を活用することで、通信効率性を維持しつつ、ロバスト性と収束性を保証する。

実験結果

リサーチクエスチョン

RQ1作業者間のデータが非i.i.d.である場合、signSGDおよびmedianSGDはグローバルに収束可能か？（標準的なi.i.d.仮定が破られる状況下で）
RQ2データの非同一性下で中央値および平均ベースのアルゴリズムが収束しない原因は何か？そして理論的にどのように是正できるか？
RQ3勾配補正機構は、通信複雑度をsignSGDが保持する状態で、非同一分布データ下での収束を保証可能か？
RQ4signSGDとmedianSGDの間には、摂動下で共通の収束行動を説明する理論的関係があるか？
RQ5ノイズ摂動は、分散非凸最適化における勾配の中央値と平均のギャップを有効に埋め合わせられるか？

主な発見

提案されたノイズ摂動機構により、局所勾配の期待中央値と平均が異なる状況下でも、signSGDおよびmedianSGDのグローバル収束が保証される。
収束速度は$ O(d^{3/4}/T^{1/4}) $であり、非凸分散最適化における最適統計的レートと一致する。
符号操作による1ビット勾配圧縮を維持することで、signSGDの低通信複雑度を保持する。
理論的分析により、摂動勾配の中央値が勾配の平均に収束することが証明され、中央値ベースと平均ベースのアルゴリズムのギャップが閉じられる。
摂動技術により、中央値ベース推定器を用いた平均のロバスト推定が可能となり、これは分散推定において独立に興味深い結果である。
MNISTを用いた実験的検証により、非同一分布データ下の実践的フェデレーテッドラーニング環境において、本手法の有効性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。