[論文レビュー] SeedFlood: A Step Toward Scalable Decentralized Training of LLMs
SeedFloodはネットワーク全体で種の再構成可能なゼロ次更新を拡散させてトポロジー不変な全体収集合せを実現し、ほぼゼロ通信を達成する。さらにSub CGEにより多数の更新を効率的に集約し、分散型LLMファインチューニングのスケーラビリティを向上させる。
This work presents a new approach to decentralized training-SeedFlood-designed to scale for large models across complex network topologies and achieve global consensus with minimal communication overhead. Traditional gossip-based methods suffer from message communication costs that grow with model size, while information decay over network hops renders global consensus inefficient. SeedFlood departs from these practices by exploiting the seed-reconstructible structure of zeroth-order updates and effectively making the messages near-zero in size, allowing them to be flooded to every client in the network. This mechanism makes communication overhead negligible and independent of model size, removing the primary scalability bottleneck in decentralized training. Consequently, SeedFlood enables training in regimes previously considered impractical, such as billion-parameter models distributed across hundreds of clients. Our experiments on decentralized LLM fine-tuning demonstrate thatSeedFlood consistently outperforms gossip-based baselines in both generalization performance and communication efficiency, and even achieves results comparable to first-order methods in large scale settings.
研究の動機と目的
- モデルサイズとネットワークトポロジーに応じてスケールする分散トレーニングを動機づける。
- モデル次元に依存しない種再構成可能な更新を用いることで主要な通信ボトルネックを排除する。
- 1回の反復で多くの更新を扱うための計算効率の高い集約機構を開発する。
- 大規模モデルと大規模ネットワークでの実証的スケーラビリティを示しつつ競争力のある性能を維持する。
提案手法
- ゼロ次更新を共通の乱数生成器(RNG)を用いて種-スカラー対として表現し摂動を再構築する。
- 各ゼロ次更新を全体へ伝搬させるためにゴシップの代わりにフローディングを用いてネットワーク全体へ伝播する。
- Subspace Canonical-basis Gradient Estimation (Sub CGE)を導入して、低ランクサブスペース内で多くの更新を効率的に集約する。
- 層ごとの全体低ランクサブスペース(U, V)を用いて、反復ごとに計算量をO(n + r d)で実現し、ランク-1風の更新を可能にする。
- サブスペースを定期的に再初期化し、ネットワークの直径分のステップ分の更新をフローディングするアルゴリズム概要(Seed Flood)を提供する。

実験結果
リサーチクエスチョン
- RQ1モデルサイズ依存の通信コストなしに、分散トレーニングはどのように十億パラメータモデルへスケールできるか?
- RQ2種再構成可能なゼロ次更新はゴシップではなくフローディングを用いて任意のトポロジーで完璧な合意を達成できるか?
- RQ3大量の種ベース更新を効率的に集約するためにどのような計算技術が必要か?
- RQ4現実世界の大規模LLMファインチューニングにおける一般化性能と通信効率の観点でSeedFloodはどのように機能するか?
主な発見
- SeedFloodは種ベースの更新をフローディングすることで、モデルサイズに依存しないほぼゼロ通信コストを実現する。
- フローディングはトポロジー不変な全体集合的な合意を提供し、距離に基づく合意劣化を緩和する。
- Sub CGEは集約コストをO(nd)からO(n + rd)へ低減し、多数の更新のスケーラブルな処理を可能にする。
- 実証的な結果は、SeedFloodが一般化性能と通信効率の面でゴシップベースのベースラインを上回り、大規模設定では一階の最適手法に匹敵することを示す。
- OPTモデルを用いた16〜128クライアントの実験で、SeedFloodはトポロジーの変化に対して頑健であり、第一次のゴシップベースのベースラインよりもスケールする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。