[論文レビュー] Federated Learning from Pre-Trained Models: A Contrastive Learning Approach
本論文は、固定事前学習済みバックボーンをプロトタイプ指向のコントラスト学習を通じて統合し、個別化かつ通信効率の高いモデルを実現する軽量な連邦学習フレームワークであるFedPCLを提案する。
Federated Learning (FL) is a machine learning paradigm that allows decentralized clients to learn collaboratively without sharing their private data. However, excessive computation and communication demands pose challenges to current FL frameworks, especially when training large-scale models. To prevent these issues from hindering the deployment of FL systems, we propose a lightweight framework where clients jointly learn to fuse the representations generated by multiple fixed pre-trained models rather than training a large-scale model from scratch. This leads us to a more practical FL problem by considering how to capture more client-specific and class-relevant information from the pre-trained models and jointly improve each client's ability to exploit those off-the-shelf models. In this work, we design a Federated Prototype-wise Contrastive Learning (FedPCL) approach which shares knowledge across clients through their class prototypes and builds client-specific representations in a prototype-wise contrastive manner. Sharing prototypes rather than learnable model parameters allows each client to fuse the representations in a personalized way while keeping the shared knowledge in a compact form for efficient communication. We perform a thorough evaluation of the proposed FedPCL in the lightweight framework, measuring and visualizing its ability to fuse various pre-trained models on popular FL datasets.
研究の動機と目的
- 既製の事前学習モデルを活用してFLの計算量と通信量を削減する動機付け。
- スクラッチで大規模なグローバルモデルを訓練せずに個別化された表現学習を可能にする。
- 学習可能な射影を介して複数のバックボーン表現を融合する軽量なフレームワークを開発する。
- クラス関連の知識を効率的に共有するためのプロトタイプベースの通信方式を提案する。
提案手法
- 複数の固定事前学習バックボーンをエンコーダとして用い、連結表現を生成する。
- 各クライアントに対してバックボーン表現を潜在表現 z(x) に融合する射影ネットワークを導入する。
- コントラスト学習を可能にするため、サーバとクライアント間でクラスプロトタイプ(グローバルおよびローカル)を共有する。
- グローバルプロトタイプ損失とローカルプロトタイプ損失の2項からなるプロトタイプ指向の教師あり対比損失を適用する。
- サーバ上でローカルプロトタイプを集約してグローバルプロトタイプを形成し、欠損クラスを扱うためのプロトタイプパディングを行う。
実験結果
リサーチクエスチョン
- RQ1固定された事前学習バックボーンをFLで効果的に融合して計算量と通信を削減できるか。
- RQ2プロトタイプベースの通信はクライアント間の個別化と知識共有を改善するか。
- RQ3グローバルプロトタイプとローカルプロトタイプは対比学習の目的と性能にどう寄与するか。
- RQ4FedPCLは非IIDデータに対して堅牢で、多数クライアント/アーキテクチャへスケール可能か。
主な発見
| BB | 手法 | MNIST | SVHN | USPS | Synth | MNIST-M | 平均 | 通信パラメータ数 |
|---|---|---|---|---|---|---|---|---|
| s | FedAvg | 70.65(1.15) | 17.10(0.20) | 70.24(1.62) | 32.90(0.75) | 29.33(1.18) | 44.04(0.98) | 133,632 |
| s | pFedMe | 71.13(3.63) | 13.18(1.78) | 69.20(0.30) | 36.25(3.35) | 25.25(2.25) | 43.00(2.26) | 133,632 |
| s | PerFedAvg | 52.68(7.03) | 16.28(1.23) | 53.66(6.58) | 29.05(3.45) | 24.38(2.38) | 35.21(4.13) | 133,632 |
| s | FedRep | 64.00(2.20) | 17.88(1.08) | 70.44(1.27) | 36.50(1.55) | 31.90(0.05) | 44.14(2.03) | 131,072 |
| s | FedProto | 80.40(2.75) | 17.03(0.38) | 88.47(0.91) | 40.90(1.10) | 32.85(0.75) | 51.93(1.18) | 2,560 |
| s | Solo | 60.40(2.25) | 15.60(0.20) | 75.28(4.48) | 34.65(0.05) | 28.48(0.53) | 42.88(1.50) | - |
| s | Ours | 82.75 (0.40) | 18.12 (0.42) | 88.82 (0.15) | 41.40 (0.60) | 33.05 (0.95) | 52.83 (0.21) | 2,560 |
| m | FedAvg | 71.68(2.93) | 18.45(0.45) | 72.95(0.86) | 37.35(1.35) | 33.70(2.55) | 46.83(1.63) | 395,776 |
| m | pFedMe | 67.45(2.70) | 15.43(0.38) | 65.66(7.20) | 33.55(4.60) | 31.80(0.20) | 42.78(3.01) | 395,776 |
| m | PerFedAvg | 56.03(2.73) | 17.03(0.63) | 57.55(0.27) | 34.90(2.80) | 30.98(1.53) | 39.30(1.59) | 395,776 |
| m | FedRep | 77.25(1.75) | 16.40(0.50) | 80.25(0.32) | 37.63(2.18) | 36.53(0.28) | 49.61(1.05) | 393,216 |
| m | FedProto | 83.78(0.83) | 17.90(0.10) | 91.74 (0.00) | 43.70(2.45) | 36.43(1.58) | 54.71(0.99) | 2,560 |
| m | Solo | 70.43(4.63) | 15.00(0.40) | 84.90(0.24) | 37.18(2.73) | 34.35(2.20) | 48.37(2.04) | - |
| m | Ours | 84.65 (0.15) | 19.38 (0.63) | 90.74(0.53) | 44.73 (0.37) | 37.25 (0.28) | 55.34 (0.34) | 2,560 |
- FedPCLは複数の非IID設定とバックボーンにおいて、いくつかのベースラインより高い精度を達成する。
- 複数の固定バックボーンを使用することで、一般に性能が向上し、実行間のばらつきが低減する。
- プロトタイプベースの通信は、モデルパラメータベースの方法と比較してラウンドあたりのパラメータ伝送量を大幅に低減する。
- グローバルプロトタイプとローカルプロトタイプを併用する方が、いずれか一方を用いるよりローカル訓練が改善される。
- 固定バックボーンと組み合わせた多様なアーキテクチャ(例:ViT、CNNs)の導入は、軽量なFL設定で性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。