[論文レビュー] Distilled One-Shot Federated Learning
DOSFLは各クライアントのプライベートデータを1回のラウンドで合成例に蒸留し、蒸留データのみをサーバに送ってグローバルモデルを訓練する。通信量は最大で1000x削減され、中央集権的な性能の93%–99%を達成する。
Current federated learning algorithms take tens of communication rounds transmitting unwieldy model weights under ideal circumstances and hundreds when data is poorly distributed. Inspired by recent work on dataset distillation and distributed one-shot learning, we propose Distilled One-Shot Federated Learning (DOSFL) to significantly reduce the communication cost while achieving comparable performance. In just one round, each client distills their private dataset, sends the synthetic data (e.g. images or sentences) to the server, and collectively trains a global model. The distilled data look like noise and are only useful to the specific model weights, i.e., become useless after the model updates. With this weight-less and gradient-less design, the total communication cost of DOSFL is up to three orders of magnitude less than FedAvg while preserving between 93% to 99% performance of a centralized counterpart. Afterwards, clients could switch to traditional methods such as FedAvg to finetune the last few percent to fit personalized local models with local datasets. Through comprehensive experiments, we show the accuracy and communication performance of DOSFL on both vision and language tasks with different models including CNN, LSTM, Transformer, etc. We demonstrate that an eavesdropping attacker cannot properly train a good model using the leaked distilled data, without knowing the initial model weights. DOSFL serves as an inexpensive method to quickly converge on a performant pre-trained model with less than 0.1% communication cost of traditional methods.
研究の動機と目的
- 中心化を犠牲にせず、フェデレーテッドラーニングにおける通信ラウンド数と転送データ量を削減する。
- データセット蒸留を活用して、1回のラウンドでグローバルモデルを訓練する合成データを作成する。
- ソフトラベル、ソフトリセット、ランダムマスキングを用いて非 IID データの課題に対処する。
- 視覚および言語タスクおよびモデルタイプ全体にわたる DOSFL の適用性を示す。
提案手法
- サーバはグローバルモデル θ0 を初期化し、クライアントに配布する。
- 各クライアントはプライベートデータを、対応するラベルと学習率を伴う小さな合成データセットに蒸留する。
- すべてのクライアントからの蒸留データをサーバ上で統合し、蒸留シーケンスに対する複数の勾配ステップを通じてグローバルモデルを更新する。
- ソフトラベルを用いて非 IID データの頑健性を向上させる。
- 二つの手法—ソフトリセットとランダムマスキング—を導入して非 IID 蒸留データによる干渉を緩和する。
- 最終モデルはクライアントへ配布され、任意で微調整が可能。
実験結果
リサーチクエスチョン
- RQ1蒸留データをモデルウェイトや勾配ではなく送信することによって、フェデレーテッドラーニングを数量階級で桁違いに少ない通信量で実現できるか?
- RQ2ソフトラベル、ソフトリセット、ランダムマスキングが、IIDおよび非IIDデータの視覚・言語タスクにおける性能にどう影響するか?
- RQ3多様なモデルタイプに対して、1回の蒸留データ訓練で中央集権的訓練をどの程度近似できるか?
- RQ4蒸留データアプローチは、盗聴や初期重みの不確実性に対して頑健か?
主な発見
- DOSFLはFedAvgと比較して最大約 ~1000x の通信削減を達成する。
- IIDデータでは、DOSFLはタスク全体で中央集権的訓練性能の93%–99%を保持する。
- 非 IID データでは、ソフトリセットが提案手法の中で最大の利得を生み出し、頑健性を大幅に向上させる。
- DOSFL は複数のモデルタイプ(CNNs、LSTMs、Transformers)とタスク(視覚と言語)をサポートし、中央集権基準と同等の精度を示す。
- 盗聴者は初期サーバ重みの知識なしに漏洩した蒸留データを用いてグローバルモデルを再現できず、従来のFLよりもプライバシー上の利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。