Skip to main content
QUICK REVIEW

[論文レビュー] The Best of Both Worlds: Accurate Global and Personalized Models through Federated Learning with Data-Free Hyper-Knowledge Distillation

Huancheng Chen, Johnny|arXiv (Cornell University)|Jan 21, 2023
Privacy-Preserving Technologies in Data被引用数 11
ひとこと要約

FedHKDはパブリックデータや生成モデルなしでハイパー知識(平均表現とソフト予測)を共有することにより、フェデレーテッドラーニングの個別化とグローバルな改善を可能にし、異種データでの強力な性能を示します。

ABSTRACT

Heterogeneity of data distributed across clients limits the performance of global models trained through federated learning, especially in the settings with highly imbalanced class distributions of local datasets. In recent years, personalized federated learning (pFL) has emerged as a potential solution to the challenges presented by heterogeneous data. However, existing pFL methods typically enhance performance of local models at the expense of the global model's accuracy. We propose FedHKD (Federated Hyper-Knowledge Distillation), a novel FL algorithm in which clients rely on knowledge distillation (KD) to train local models. In particular, each client extracts and sends to the server the means of local data representations and the corresponding soft predictions -- information that we refer to as ``hyper-knowledge". The server aggregates this information and broadcasts it to the clients in support of local training. Notably, unlike other KD-based pFL methods, FedHKD does not rely on a public dataset nor it deploys a generative model at the server. We analyze convergence of FedHKD and conduct extensive experiments on visual datasets in a variety of scenarios, demonstrating that FedHKD provides significant improvement in both personalized as well as global model performance compared to state-of-the-art FL methods designed for heterogeneous data settings.

研究の動機と目的

  • グローバルモデルが異種クライアントデータで性能低下を引き起こす問題に対処する。
  • 各クライアントの個別モデルの精度を損なうことなく、強力な個別モデルを実現する。
  • プライバシーを保護するデータなし知識蒸留メカニズムを提案する。

提案手法

  • クライアントはクラスごとの平均データ表現と平均ソフト予測(ハイパー知識)を計算する。
  • サーバは差分プライバシーを用いてハイパー知識を集約し、次ラウンドにブロードキャストする。
  • ローカルトレーニングは3項ロス:交差エントロピー、グローバルソフト予測への近接、ローカル表現とグローバル表現の近接。
  • ハイパー知識は共有前にガウス機構でプライベート化される。
  • 公開データセットやサーバー側生成モデルは不要。

実験結果

リサーチクエスチョン

  • RQ1FedHKDは高度に異種データの下でローカル(個別)とグローバルモデルの精度を同時に向上させることができるか?
  • RQ2データなしのハイパー知識蒸留は収束性とプライバシーにどのように影響するか?
  • RQ3非IID条件下でのFedHKDの性能は、最先端のKDベースおよび非KDのFL手法と比較してどうか?

主な発見

DatasetSchemeLocal AccGlobal AccParams (M)Time (s)Pub Data # Clients
SVHNFedAvg0.67660.73290.65440.4948No10
SVHNFedProx0.69270.67170.69910.5191No10
SVHNMoon0.66020.70850.71920.4883No10
SVHNFedAlign0.76750.79200.76560.6426No10
SVHNFedGen0.57880.56580.46790.3622Yes10
SVHNFedMD0.80380.80860.79120.6812Yes10
SVHNFedProto0.80710.81480.80390.6064No10
SVHNFedHKD*0.80640.81570.80720.6405No10
SVHNFedHKD0.80860.83810.78910.6781No10
CIFAR10FedAvg0.59500.62610.58250.4741No10
CIFAR10FedProx0.59810.62950.64900.4793No10
CIFAR10Moon0.59010.64820.55130.4579No10
CIFAR10FedAlign0.59480.60230.64020.4976No10
CIFAR10FedGen0.58790.63950.65330.4800No10
CIFAR10FedMD0.61470.66660.65330.5088Yes10
CIFAR10FedProto0.61310.65050.59390.5012No10
CIFAR10FedHKD*0.62270.65150.66750.5049No10
CIFAR10FedHKD0.62540.68160.66710.5213No10
CIFAR100FedAvg0.23610.26250.26580.2131No10
CIFAR100FedProx0.23320.28140.29550.2267No10
CIFAR100Moon0.23530.27290.24280.2141No10
CIFAR100FedAlign0.24670.26170.28540.2281No10
CIFAR100FedGen0.23930.27010.27390.2176No10
CIFAR100FedMD0.26810.30540.32930.2323Yes10
CIFAR100FedProto0.25680.31880.31700.2121No10
CIFAR100FedHKD*0.25510.29970.30160.2286No10
CIFAR100FedHKD0.29810.32450.33750.2369No10
  • FedHKDはSVHN、CIFAR10、CIFAR100の両方のローカルおよびグローバル精度で一般的にベースラインを上回る。
  • SVHNではFedHKDはローカル精度を最大20ポイント、グローバル精度を最大39ポイント改善。
  • FedHKDは公的データや生成モデルを使わずに、しばしば1位または2位の精度を獲得(FedMD, FedGenと比較)。
  • FedHKDは追加の正則化項のため、1ラウンドあたりの訓練時間の増加を控えめに保つ。
  • FedHKD*(特徴抽出器制約なし)はグローバル精度で依然としてFedProtoを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。