Skip to main content
QUICK REVIEW

[논문 리뷰] DFRD: Data-Free Robustness Distillation for Heterogeneous Federated Learning

Kangyang Luo, Shuai Wang|arXiv (Cornell University)|2023. 09. 24.
Privacy-Preserving Technologies in Data인용 수 7
한 줄 요약

DFRD는 데이터와 모델 이질성을 가진 연합학습에서 데이터-프리 로버스트니스 디스틸레이션을 도입하며, EMA가 있는 조건부 생성기, 동적 가중치 부여 및 라벨 샘플링을 사용하여 공개 데이터 없이 이질적인 클라이언트로부터 지식을 증류합니다.

ABSTRACT

Federated Learning (FL) is a privacy-constrained decentralized machine learning paradigm in which clients enable collaborative training without compromising private data. However, how to learn a robust global model in the data-heterogeneous and model-heterogeneous FL scenarios is challenging. To address it, we resort to data-free knowledge distillation to propose a new FL method (namely DFRD). DFRD equips a conditional generator on the server to approximate the training space of the local models uploaded by clients, and systematically investigates its training in terms of fidelity, transferability} and diversity. To overcome the catastrophic forgetting of the global model caused by the distribution shifts of the generator across communication rounds, we maintain an exponential moving average copy of the generator on the server. Additionally, we propose dynamic weighting and label sampling to accurately extract knowledge from local models. Finally, our extensive experiments on various image classification tasks illustrate that DFRD achieves significant performance gains compared to SOTA baselines.

연구 동기 및 목표

  • 연합학습에서 데이터 이질성과 모델 이질성을 해결한다.
  • 클라이언트의 다양한 데이터 분포와 아키텍처를 가진 경우에도 강건한 글로벌 모델 학습을 가능하게 한다.
  • 비공개 데이터에 접근하지 않고 지역 학습 공간을 근사하기 위한 데이터-프리 지식 증류를 활용한다.
  • 생성 모델의 EMA를 통한 재앙소실 방지와 향상된 데이터 샘플링 전략으로 실패를 완화한다.

제안 방법

  • 서버 측 조건부 생성기 G(w)를 배치하여 노이즈 z와 레이블 y로부터 합성 데이터 s를 생성한다.
  • 선정된 클라이언트들에서 합성 데이터 로짓과 실제 레이블 간의 교차 엔트로피 손실을 최소화하여 충실도를 최적화한다: L_fid = CE( sum_i in S_t tau_i,y f_i(s, theta_i), y ).
  • 전이 가능성을 높이기 위해 전체 로짓과 앙상블 로짓을 정렬화하기 위한 KL 발산에 기초한 적대적 전이 손실 L_tran을 활용한다.
  • 합성 데이터의 다양성을 촉진하기 위해 배치 기반의 페어와이즈 거리 목표를 사용하는 다양성 손실 L_div를 사용한다.
  • 생성기 G ˜(w˜)의 EMA 사본을 유지하고 EMA 업데이트 w˜^t = lambda w˜^{t-1} + (1-lambda) w^t를 적용하여 분포 변화로 인한 실패를 줄이고 강건한 증류를 수행한다.
  • 가중치를 동적으로 조정하는 tau_i,y와 각 클라이언트의 레이블 수에 비례하는 p(y) 샘플링을 사용하여 지역 모델에서의 지식 추출을 개선한다.
  • 글로벌 모델 로짓과 앙상블 로짓 및 EMA 생성 데이터를 공동으로 최적화하여 강건한 모델 증류를 수행한다.

실험 결과

연구 질문

  • RQ1데이터 및 모델 이질성 simultaneously 하에서 데이터-프리 지식 증류가 강건한 글로벌 모델을 FL에서 어떻게 가능하게 하는가?
  • RQ2조건부 생성기가 이질적인 클라이언트 간의 지역 학습 공간을 충실하게 근사하면서 재앙소실을 피할 수 있는가?
  • RQ3동적 가중치와 라벨 샘플링이 데이터-프리 FL에서 다양한 지역 모델로부터의 지식 추출을 개선하는가?
  • RQ4PT 기반(이질적) FL 접근법에 대한 미세조정 방법으로 DFRD가 표준 FedAvg 기법 대비 얼마나 성능을 향상시키는가?

주요 결과

  • DFRD는 광범위한 이미지 분류 실험에서 SOTA 기법 대비 상당한 성능 향상을 보여준다.
  • DFRD는 데이터 이질성 및 모델 이질성의 다양한 수준에서 강건성을 유지하며 PT 기반 방법보다 다수의 데이터셋에서 성능이 우수하다.
  • EMA 생성기가 생성기의 분포 변화로 인한 재앙소실을 줄여 글로벌 모델 업데이트를 안정화하는 데 도움을 준다.
  • 동적 가중치 부여와 라벨 샘플링이 지역 모델로부터의 지식 추출을 개선하여 글로벌 정확도를 높인다.
  • 미세조정 방법으로 사용할 때 DFRD는 PT 기반 사전 학습보다 글로벌 모델의 성능을 향상시킨다.
  • 전반적으로 DFRD는 다양한 데이터셋과 이질성 설정에서 글로벌 정확도를 일관되게 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.