[논문 리뷰] The Best of Both Worlds: Accurate Global and Personalized Models through Federated Learning with Data-Free Hyper-Knowledge Distillation
FedHKD는 퍼블릭 데이터나 생성 모델 없이 하이퍼-지식(평균 표현 및 소프트 예측)을 공유함으로써 연합학습에서 개인화 및 글로벌 개선을 가능하게 하며 이질적인 데이터에서 강력한 성능을 입증합니다.
Heterogeneity of data distributed across clients limits the performance of global models trained through federated learning, especially in the settings with highly imbalanced class distributions of local datasets. In recent years, personalized federated learning (pFL) has emerged as a potential solution to the challenges presented by heterogeneous data. However, existing pFL methods typically enhance performance of local models at the expense of the global model's accuracy. We propose FedHKD (Federated Hyper-Knowledge Distillation), a novel FL algorithm in which clients rely on knowledge distillation (KD) to train local models. In particular, each client extracts and sends to the server the means of local data representations and the corresponding soft predictions -- information that we refer to as ``hyper-knowledge". The server aggregates this information and broadcasts it to the clients in support of local training. Notably, unlike other KD-based pFL methods, FedHKD does not rely on a public dataset nor it deploys a generative model at the server. We analyze convergence of FedHKD and conduct extensive experiments on visual datasets in a variety of scenarios, demonstrating that FedHKD provides significant improvement in both personalized as well as global model performance compared to state-of-the-art FL methods designed for heterogeneous data settings.
연구 동기 및 목표
- 이질적 클라이언트 데이터에서 글로벌 모델의 성능 저하를 해결한다.
- 각 클라이언트에 대해 글로벌 정확도를 해치지 않으면서 강력한 개인화 모델을 가능하게 한다.
- 개인정보를 보호하는 데이터-프리 하이퍼-지식 증류 메커니즘을 제안한다.
제안 방법
- 클라이언트는 클래스별 평균 데이터 표현 및 평균 소프트 예측(하이퍼-지식)을 계산한다.
- 서버는 차등 프라이버시를 통해 하이퍼-지식을 집계하고 다음 라운드에 전파한다.
- 로컬 학습은 세 가지 항의 손실(교차 엔트로피, 글로벌 소프트 예측에 대한 근접성, 로컬 표현과 글로벌 표현의 근접성)을 사용한다.
- 공유 전에 하이퍼-지식을 가우시안 메커니즘으로 privatize한다.
- 공개 데이터나 서버 측 생성 모델이 필요하지 않다.
실험 결과
연구 질문
- RQ1FedHKD가 이질적으로 분산된 데이터에서 로컬(개인화) 및 글로벌 모델 정확도를 모두 개선할 수 있는가?
- RQ2데이터-프리 하이퍼-지식 증류가 수렴 및 프라이버시에 어떤 영향을 미치는가?
- RQ3비 iid 조건에서 FedHKD의 성능은 KD 기반 및 비-KD FL 방법과 비교해 어떠한가?
주요 결과
- FedHKD는 SVHN, CIFAR10, CIFAR100에서 로컬 및 글로벌 정확도 모두에서 일반적으로 기준선보다 우수하다.
- SVHN에서 FedHKD는 로컬 정확도를 최대 20pp, 글로벌 정확도를 최대 39pp 향상시켰다(FedAvg 대비).
- FedHKD는 공개 데이터나 생성 모델을 사용하지 않는 경우에도 종종 1위 또는 2위를 차지한다(FedMD, FedGen 대비).
- FedHKD는 추가 정규화 항으로 인해 라운드당 학습 시간 증가가 보수적으로 유지된다(FedAvg 대비).
- FedHKD*(특징 추출기 제약 조건 없이)도 글로벌 정확도에서 여전히 FedProto를 상회한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.