[논문 리뷰] FedMD: Heterogenous Federated Learning via Model Distillation
FedMD는 독립적으로 설계된 모델을 사용하는 참가자가 공용 데이터셋에서 지식을 증류하여 전달함으로써 연합학습을 가능하게 하며, 고립된 학습보다 이득을 얻고 풀 데이터 성능에 근접하는 결과를 냅니다.
Federated learning enables the creation of a powerful centralized model without compromising data privacy of multiple participants. While successful, it does not incorporate the case where each participant independently designs its own model. Due to intellectual property concerns and heterogeneous nature of tasks and data, this is a widespread requirement in applications of federated learning to areas such as health care and AI as a service. In this work, we use transfer learning and knowledge distillation to develop a universal framework that enables federated learning when each agent owns not only their private data, but also uniquely designed models. We test our framework on the MNIST/FEMNIST dataset and the CIFAR10/CIFAR100 dataset and observe fast improvement across all participating models. With 10 distinct participants, the final test accuracy of each model on average receives a 20% gain on top of what's possible without collaboration and is only a few percent lower than the performance each model would have obtained if all private datasets were pooled and made directly available for all participants.
연구 동기 및 목표
- 참가자들이 자체 모델 아키텍처를 배치하는 설정에서 연합 학습을 동기부여한다.
- 개인 데이터를 공유하지 않거나 아키텍처를 공유하지 않고 모델 이질성을 허용하는 프레임워크를 제안한다.
- 전이 학습과 지식 증류를 활용하여 교차 모델 협업을 가능하게 한다.
- 일반 데이터셋에서 FedMD를 평가하여 고립 학습 대비 성능 향상을 입증한다.
제안 방법
- 공용 데이터셋을 공통 통신 기반으로 사용한다.
- 각 당사자는 공용 데이터에서 먼저 자체 모델을 사전 학습하고 그다음 private data로 학습한다 (전이 학습).
- 모델들은 공용 데이터에서 클래스 점수를 공유하고 중앙 서버가 이 점수들을 평균화하여 합의를 형성한다.
- 각 참가자는 공용 데이터에서 합의에 정렬되도록 자신의 모델을 업데이트한다 (증류).
- 효율성을 위해 때때로 공용 데이터를 부분 샘플링하여 다듬고 재실행한다.
- 합의를 형성할 때 참가자들을 다르게 가중할 수 있다.
실험 결과
연구 질문
- RQ1데이터나 아키텍처를 공유하지 않고 이질적 모델들이 연합학습에서 협업할 수 있는가?
- RQ2다양한 모델 간 지식을 어떻게 번역하여 각 참가자의 성능을 향상시킬 수 있는가?
- RQ3고립 학습 및 풀 데이터 상한에 비해 어떤 성능 향상이 가능한가?
- RQ4참가자 간의 i.i.d. 및 비-i.i.d. 데이터 분포에서 프레임워크의 성능은 어떠한가?
주요 결과
- MNIST/FEMNIST 및 CIFAR10/CIFAR100 전반에서 FedMD는 고립된 전이 학습 대비 상당한 향상을 보인다.
- 10명의 참가자일 때 최종 테스트 정확도 향상은 비협력 기준 대비 평균 약 20%이다.
- 성능은 풀된 비공개 데이터 상한에 근접하며 차이가 몇 퍼센트에 불과하다.
- 전형적인 공동 협력 전의 정확도는 MNIST에서 약 99%, CIFAR10에서 약 76%로 보인다.
- FedMD는 i.i.d. 및 non-i.i.d. 설정 모두에서 효과적이며 모델 아키텍처의 이질성을 보인다.
- 일부 경우 간단한 모델이 FedMD 프레임워크 내에서 경쟁력 있거나 더 나은 성능을 낼 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.