QUICK REVIEW

[論文レビュー] Epidemic Learning: Boosting Decentralized Learning with Randomized Communication

Martijn de Vos, Sadegh Farhadkhani|arXiv (Cornell University)|Oct 3, 2023

Advanced MIMO Systems Optimization被引用数 10

ひとこと要約

エピデミック学習（EL）は、各ノードがラウンドごとに s ピアとランダムに通信する分散学習アルゴリズムで、非IIDデータ分布下で静的トポロジよりも収束が速く精度が向上します。経験的には、ELは CIFAR-10 において 96 ノードネットワークで最大 1.7x の通信ラウンド短縮と最大 2.2% の精度向上を達成します。

ABSTRACT

We present Epidemic Learning (EL), a simple yet powerful decentralized learning (DL) algorithm that leverages changing communication topologies to achieve faster model convergence compared to conventional DL approaches. At each round of EL, each node sends its model updates to a random sample of $s$ other nodes (in a system of $n$ nodes). We provide an extensive theoretical analysis of EL, demonstrating that its changing topology culminates in superior convergence properties compared to the state-of-the-art (static and dynamic) topologies. Considering smooth non-convex loss functions, the number of transient iterations for EL, i.e., the rounds required to achieve asymptotic linear speedup, is in $O(n^3/s^2)$ which outperforms the best-known bound $O(n^3)$ by a factor of $s^2$, indicating the benefit of randomized communication for DL. We empirically evaluate EL in a 96-node network and compare its performance with state-of-the-art DL approaches. Our results illustrate that EL converges up to $ 1.7 imes$ quicker than baseline DL algorithms and attains $2.2 $\% higher accuracy for the same communication volume.

研究の動機と目的

非IIDデータ分布にもかかわらず、分散学習におけるより速い収束を動機づける。
各ラウンドで s 個のランダムなピアに接触するランダム化された、エピデミック風通信プロトコルを提案する。
滑らかな非凸損失とヘテロジニアスデータの下で収束を理論的に分析する。
標準データセット上で静的およびランダム化されたベースラインと比較したELの経験的証拠を提供する。

提案手法

ELを二つのバリアントで定義する: EL-Oracle（s-規則的、協調）とEL-Local（s 独立、分散）。
各ラウンドでノードはローカル SGD ステップを実行し、その後更新済みモデルをs個のランダムに選ばれたピアへ送信する。
ノードは局所更新と受信したピア更新を平均化してモデルを更新する。
ELの収束速度を証明: 標準的な仮定の下、転送的反復でO(1/sqrt[3](sT^2))の改善、Tに対する線形スピードアップ。
EL-Oracleはより厳密な分析を伴う二重確率的ミキシングをもたらす。
CIFAR-10を96ノードと非IID Dirichletデータ分布で評価し、静的トポロジとEquiTopoと比較する。

実験結果

リサーチクエスチョン

RQ1ランダム化され変更される通信トポロジーは、分散学習において静的および他の動的トポロジーと比べて収束速度を改善するか？
RQ2EL-OracleとEL-Localは非IIDデータ分布下での収束保証と実務的パフォーマンスでどう比較されるか？
RQ3サンプルサイズsは収束、通信コスト、最終精度にどのような影響を与えるか？
RQ4ELは前の境界と比較してどの程度線形スピードアップを達成し、転換反復を削減できるか？

主な発見

ELはEL-Oracleについては O(1/√(nT) + 1/√[3](sT^2) + 1/T)、EL-Localについては最初の項が O(1/√(nT))、ただし問題依存の第二項を加える、という収束速度を持つ。
転換反復は O(n^3/s^2) で、以前の O(n^3) の境界を s^2 倍だけ改善する。
s が大きくなると（例: s ∈ O(log n)）、ELは静的/動的ベースラインと比較してはるかに少ない転換ラウンドと改善された収束を達成する。
実証的には CIFAR-10 の 96 ノードと非IID データで、EL-Oracle および EL-Local は収束が速く、最も良い静的ベースラインより最大 2.2% のトップ1精度を達成し、通信ラウンドを最大 1.7x 減らす。
EL-Local は中央協調なしで EL-Oracle と同等の性能を維持し、実用的な分散実装性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。