[論文レビュー] Salvaging Federated Learning by Local Adaptation
本論文は、差分プライバシーとロバストな集約が連邦学習における個々のユーザーの精度を低下させる可能性を示す一方で、ローカル適応技術(ファインチューニング、マルチタスク学習、知識蒸留)は世界的なFLフレームワークを変更せずに、個々の参加者の精度を回復・さらに向上させることができる。
Federated learning (FL) is a heavily promoted approach for training ML models on sensitive data, e.g., text typed by users on their smartphones. FL is expressly designed for training on data that are unbalanced and non-iid across the participants. To ensure privacy and integrity of the fedeated model, latest FL approaches use differential privacy or robust aggregation. We look at FL from the \emph{local} viewpoint of an individual participant and ask: (1) do participants have an incentive to participate in FL? (2) how can participants \emph{individually} improve the quality of their local models, without re-designing the FL framework and/or involving other participants? First, we show that on standard tasks such as next-word prediction, many participants gain no benefit from FL because the federated model is less accurate on their data than the models they can train locally on their own. Second, we show that differential privacy and robust aggregation make this problem worse by further destroying the accuracy of the federated model for many participants. Then, we evaluate three techniques for local adaptation of federated models: fine-tuning, multi-task learning, and knowledge distillation. We analyze where each is applicable and demonstrate that all participants benefit from local adaptation. Participants whose local models are poor obtain big accuracy improvements over conventional FL. Participants whose local models are better than the federated model extemdash and who have no incentive to participate in FL today extemdash improve less, but sufficiently to make the adapted federated model better than their local models.
研究の動機と目的
- 非IIDデータ、プライバシー、およびロバスト性保護下で、標準の連邦学習が個々の参加者に利益をもたらすかを評価する。
- FLの集約フレームワークを変更せずに、ローカル適応技術が参加者のモデルをどの程度改善できるかを評価する。
- 異なる参加者データ特性とプライバシー体制に対して、どの適応手法が最も効果的かを特定する。)
提案手法
- 次語予測(Reddit)と CIFAR-10 画像分類(非IID Dirichlet分布)で BASIC-FED、DP-FED、ROBUST-FEDを評価する。
- 3つのローカル適応手法を試す: 全パラメータでのファインチューニング(FT); ベースを凍結した variant(FB variants); Elastic Weight Consolidationを用いたマルチタスク学習(MTL); 連邦教師から生徒への知識蒸留(KD)。
- 各参加者のデータ上で適応モデルを、各参加者の局所トレーニング済みモデルおよび適応されていないフェデレーテッドモデルと比較する。
- 標準のNLPおよびビジョンタスクとニューラルアーキテクチャを使用(語予測の2層LSTM、隠れ層200、CIFAR-10はResNet-18)。
- 参加者ごとの精度と集合的な傾向を報告して、参加報酬の変化を理解する。
実験結果
リサーチクエスチョン
- RQ1プライバシーまたはロバスト性保護を備えたフェデレーテッドモデルは、参加者自身のデータ上で局所モデルを上回るか?
- RQ2参加者はFL集約を変更せずに、フェデレーテッドモデルを局所的に適応させて精度を改善できるか?
- RQ3異なる参加者データ分布とプライバシー設定の下で、どのローカル適応技術が精度を回復・向上させるのに最も効果的か?
- RQ4データ特性(語彙サイズ、総語数)はローカル適応の有効性にどう影響するか?
主な発見
- プライバシーおよびロバスト性の保護は、多くのユーザーにとってFLにおける個々の参加者の精度を低下させる。
- 適応技術は一般に個々のローカルモデルと比較して連邦モデルの精度を回復させ、しばしば向上させる。
- 語予測では、適応による平均精度向上は BASIC-FED で 2.32%、DP-FED で 2.12%、ROBUST-FED で 2.12%。
- 画像分類では、適応による平均精度向上は BASIC-FED で 2.98%、DP-FED で 6.83%、ROBUST-FED で 6.34%。
- 適応モデルは多数の参加者にとって局所モデルを上回り、特に初期に局所モデルが不良だった参加者に最大の利得が見られる。
- 適応は良好な局所モデルを持つ参加者にもフェデレートモデルの性能を向上させ、多くのケースで適応済みフェデレートモデルは局所モデルと同等またはそれを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。