[論文レビュー] DriftGuard: Mitigating Asynchronous Data Drift in Federated Learning
DriftGuardはMixture-of-Expertsに触発されたアーキテクチャを用いて、フェデレーテッド学習におけるグローバル更新とグループ特異更新をデカップリングし、非同期データドリフト下で再学習コストを削減しつつ精度を維持または向上させる。
In real-world Federated Learning (FL) deployments, data distributions on devices that participate in training evolve over time. This leads to asynchronous data drift, where different devices shift at different times and toward different distributions. Mitigating such drift is challenging: frequent retraining incurs high computational cost on resource-constrained devices, while infrequent retraining degrades performance on drifting devices. We propose DriftGuard, a federated continual learning framework that efficiently adapts to asynchronous data drift. DriftGuard adopts a Mixture-of-Experts (MoE) inspired architecture that separates shared parameters, which capture globally transferable knowledge, from local parameters that adapt to group-specific distributions. This design enables two complementary retraining strategies: (i) global retraining, which updates the shared parameters when system-wide drift is identified, and (ii) group retraining, which selectively updates local parameters for clusters of devices identified via MoE gating patterns, without sharing raw data. Experiments across multiple datasets and models show that DriftGuard matches or exceeds state-of-the-art accuracy while reducing total retraining cost by up to 83%. As a result, it achieves the highest accuracy per unit retraining cost, improving over the strongest baseline by up to 2.3x. DriftGuard is available for download from https://github.com/blessonvar/DriftGuard.
研究の動機と目的
- 現実世界のFederated Learning(FL)展開における非同期データドリフトを動機づけ、対処する。
- グローバルに移転可能な知識とグループ特異な適応を分離する、スケーラブルな継続学習フレームワークを提案する。
- グローバル共有パラメータとグループ特異ローカルパラメータの選択的更新による再学習コストの削減。
- デバイスのクラスタリングと二層再学習を実現し、精度とシステムオーバーヘッドのバランスを取る。
提案手法
- パラメータを共有(グローバル)ブランチとローカル(グループ特異)ブランチに分割するMixture-of-Experts(MoE)アーキテクチャを採用する。
- ブランチレベルのソフトゲーティングとレイヤーレベルのハードゲーティングを用いて、専門家を動的に活性化し、データ分布に基づいてデバイスをクラスタリングする。
- デバイス観測から導出された集約ゲーティングマトリクスをサーバー側でクラスタリングし、類似データドリフトを持つグループを形成する。
- グローバルドリフトを検出した場合には共有パラメータのグローバル再学習、低下したグループ内のローカルパラメータのグループ再学習を時間ステップごとに二つの再学習構成として生成する。
- 関連するパラメータサブセットのみを更新する二層構造で再学習を実行し、FLOPsを低減する。
- 複数のモデル–データセットペアとRaspberry PiベースのIoTプロトタイプでDriftGuardを評価し、従来のFCLおよびクラスタリングベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1FL再学習をどのように効果的にデカップリングして非同期データドリフトを扱い、オーバーヘッドを低減できるか。
- RQ2MoEベースのアーキテクチャは、精度を保ちつつコストを削減する選択的なグローバルおよびグループ再学習を可能にするか。
- RQ3デバイスをデータ分布でクラスタリングすることは、非同期環境における再学習の効率と精度を改善するか。
- RQ4非同期ドリフトの下でグローバルパラメータ更新とグループ特異更新のトレードオフは何か。
- RQ5DriftGuardは複数のデータセット、モデル、実世界IoTハードウェアでどのように機能するか。
主な発見
- DriftGuardは強力なベースラインと同等またはそれ以上の精度を達成しつつ、総再学習コストを最大で83%削減。
- DriftGuardは再学習コストあたりの最高精度を達成し、最も強力なベースラインより最大2.3×高い。
- 実世界のIoTプロトタイプ(20台のRaspberry Pi 4)で、DriftGuardは最高の精度を達成し、再学習時間を最大で20%削減。
- グローバル共有パラメータとグループ特異ローカルパラメータの二層再学習により、非同期ドリフトへの効率的な適応と全球的に移転可能な知識の共有を実現。
- デバイスグルーピングは生データを共有せず、MoEゲーティング出力を用いて類似データ分布をクラスタリング。
- 評価は三つのデータセット(DG5、PACS、DomainNet)と四つのモデル変種(cResNet-S/M、cViT-S/M)を対象としている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。