[논문 리뷰] Data-Free Knowledge Distillation for Heterogeneous Federated Learning
FeDGen은 프록시 데이터를 사용하지 않고 로컬 모델에 앙상블 지식을 증류하기 위해 서버에서 경량 생성기를 학습하여 이질적인 연합학습에 대한 데이터 프리 지식 증류 프레임워크를 도입한다.
Federated Learning (FL) is a decentralized machine-learning paradigm in which a global server iteratively aggregates the model parameters of local users without accessing their data. User <i>heterogeneity</i> has imposed significant challenges to FL, which can incur drifted global models that are slow to converge. <i>Knowledge Distillation</i> has recently emerged to tackle this issue, by refining the server model using aggregated knowledge from heterogeneous users, other than directly aggregating their model parameters. This approach, however, depends on a proxy dataset, making it impractical unless such prerequisite is satisfied. Moreover, the ensemble knowledge is not fully utilized to guide local model learning, which may in turn affect the quality of the aggregated model. In this work, we propose a <i>data-free knowledge distillation</i> approach to address heterogeneous FL, where the server learns a lightweight generator to ensemble user information in a data-free manner, which is then broadcasted to users, regulating local training using the learned knowledge as an inductive bias. Empirical studies powered by theoretical implications show that, our approach facilitates FL with better generalization performance using fewer communication rounds, compared with the state-of-the-art.
연구 동기 및 목표
- 연합학습에서 프록시 데이터가 증류에 사용될 수 없을 때 사용자 간 이질성을 해소한다.
- 로컬 학습을 보강하기 위해 모델 예측으로 학습된 생성기를 활용하는 데이터 프리 KD 접근법을 제안한다.
- 전역 모델의 개선뿐 아니라 로컬 모델 업데이트를 직접 안내하는 지식 증류를 가능하게 한다.
- 프라이버시에 민감한 FL 시나리오에 적합한 경량의 통신 효율적 프레임워크를 제공한다.
제안 방법
- 타깃 레이블 y가 주어지면 엔섬블 일관성 예측을 생성하는 잠재 표현 z를 생성하는 조건부 생성기 G_w를 학습한다.
- 생성된 엔섬블 예측이 타깃 레이블과 정렬되도록 손실(식(4))를 최소화하여 G_w를 최적화한다.
- G_w를 클라이언트에 방송하고 각 클라이언트는 z ~ G_w(z|y)로 로컬 학습을 보강하는 추가 증류 항(식(5))을 이용한다.
- 예측 계층(θ^p_k)만 공유하고 특징 추출기는 로컬에 두어 프라이버시 및 통신 부담을 줄이는 유연한 매개변수 공유를 가능하게 한다.
실험 결과
연구 질문
- RQ1데이터 프리 지식 증류가 프록시 데이터에 접근 없이도 연합학습에서 이질성을 효과적으로 완화할 수 있는가?
- RQ2로컬로 학습된 모델에 앙상블 지식을 증류하는 것이 더 적은 통신 라운드에서 비슷하거나 우수한 일반화 성능을 제공하는가?
- RQ3클라이언트 간 데이터 비 IID 분포의 다양한 정도에서 FeDGen의 성능은 어떻게 나타나는가?
- RQ4지식이 로컬 모델로 증류될 때 전역 모델만 정제하는 것보다 이론적·경험적 이점이 무엇인가?
주요 결과
| 데이터셋 | 설정 | FedAvg | FedProx | FedEnsemble | FedDistill | FedDistill + | FedDFusion | FeDGen |
|---|---|---|---|---|---|---|---|---|
| Mnist | T=20, α=0.05 | 87.70 ± 2.07 | 87.49 ± 2.05 | 88.85 ± 0.68 | 70.56 ± 1.24 | 86.70 ± 2.27 | 90.02 ± 0.96 | 91.30 ± 0.74 |
| Mnist | T=20, α=0.1 | 90.16 ± 0.59 | 90.10 ± 0.39 | 90.78 ± 0.39 | 64.11 ± 1.36 | 90.28 ± 0.89 | 91.11 ± 0.43 | 93.03 ± 0.32 |
| Mnist | T=20, α=1 | 93.84 ± 0.25 | 93.83 ± 0.29 | 93.91 ± 0.28 | 79.88 ± 0.66 | 94.73 ± 0.15 | 93.37 ± 0.40 | 95.52 ± 0.07 |
| CelebA | r=5/10 | 87.48 ± 0.39 | 87.67 ± 0.39 | 88.48 ± 0.23 | 76.68 ± 1.23 | 86.37 ± 0.41 | 87.01 ± 1.00 | 89.70 ± 0.32 |
| CelebA | r=5/25 | 89.13 ± 0.25 | 88.84 ± 0.19 | 90.22 ± 0.31 | 74.99 ± 1.57 | 88.05 ± 0.43 | 88.93 ± 0.79 | 89.62 ± 0.34 |
| CelebA | r=10/25 | 89.12 ± 0.20 | 89.01 ± 0.33 | 90.08 ± 0.24 | 75.88 ± 1.17 | 88.14 ± 0.37 | 89.25 ± 0.56 | 90.29 ± 0.47 |
| EMnist | T=20, α=0.05 | 62.25 ± 2.82 | 61.93 ± 2.31 | 64.99 ± 0.35 | 60.49 ± 1.27 | 61.56 ± 2.15 | 70.40 ± 0.79 | 68.53 ± 1.17 |
| EMnist | T=20, α=0.1 | 66.21 ± 2.43 | 65.29 ± 2.94 | 67.53 ± 1.19 | 50.32 ± 1.39 | 66.06 ± 3.18 | 70.94 ± 0.76 | 72.15 ± 0.21 |
| EMnist | T=20, α=10 | 74.83 ± 0.69 | 74.24 ± 0.81 | 74.90 ± 0.80 | 54.77 ± 0.33 | 75.55 ± 0.94 | 74.36 ± 0.40 | 78.43 ± 0.74 |
| EMnist | T=20, α=1 | 74.83 ± 0.99 | 74.12 ± 0.88 | 75.12 ± 1.07 | 46.19 ± 0.70 | 75.41 ± 1.05 | 75.43 ± 0.37 | 78.48 ± 1.04 |
| EMnist | T=40, α=1 | 77.02 ± 1.09 | 75.93 ± 0.95 | 77.68 ± 0.98 | 46.72 ± 0.73 | 78.12 ± 0.90 | 77.58 ± 0.37 | 78.92 ± 0.73 |
- FeDGen은 이질적 FL 설정에서 MNIST, CelebA, EMNIST에 대해 기준선(FedAvg, FedProx, FedEnsemble, FedDistill, FedDistill+, FedDFusion)보다 일관되게 우수하다.
- FeDGen은 데이터 이질성의 서로 다른 수준(Dirichlet α 변동) 및 활성 사용자 비율에서도 강건하다.
- 학습된 생성기 G_w는 글로벌 데이터 분포와 정렬된 집계 잠재 분포를 포착하여 로컬 귀납 바이어스와 일반화를 개선한다.
- 로컬 모델에 증류된 지식은 전역 모델만 정제하는 방법에 비해 특히 높은 이질성 하에서 이점을 제공한다.
- 예측 계층만 공유하는 방식은 여전히 상당한 이점을 제공하여 프라이버시 및 통신 효율성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.