[논문 리뷰] FjORD: Fair and Accurate Federated Learning under heterogeneous targets with Ordered Dropout
FjORD는 이질적인 디바이스에서 연합학습을 위한 적응적이고 중첩된 서브모델을 가능하게 하는 Ordered Dropout를 도입하여 서브모델 재훈련 없이 공정성과 정확도를 향상시킵니다. 또한 더 작은 서브모델의 성능을 높이기 위한 자기 증류(self-distillation) 메커니즘을 포함합니다.
Federated Learning (FL) has been gaining significant traction across different ML tasks, ranging from vision to keyboard predictions. In large-scale deployments, client heterogeneity is a fact and constitutes a primary problem for fairness, training performance and accuracy. Although significant efforts have been made into tackling statistical data heterogeneity, the diversity in the processing capabilities and network bandwidth of clients, termed as system heterogeneity, has remained largely unexplored. Current solutions either disregard a large portion of available devices or set a uniform limit on the model's capacity, restricted by the least capable participants. In this work, we introduce Ordered Dropout, a mechanism that achieves an ordered, nested representation of knowledge in deep neural networks (DNNs) and enables the extraction of lower footprint submodels without the need of retraining. We further show that for linear maps our Ordered Dropout is equivalent to SVD. We employ this technique, along with a self-distillation methodology, in the realm of FL in a framework called FjORD. FjORD alleviates the problem of client system heterogeneity by tailoring the model width to the client's capabilities. Extensive evaluation on both CNNs and RNNs across diverse modalities shows that FjORD consistently leads to significant performance gains over state-of-the-art baselines, while maintaining its nested structure.
연구 동기 및 목표
- 장치 능력이 크게 다른 강한 시스템 이질성 하에서 연합학습의 필요성을 제시한다.
- 다른 디바이스 계층에 대해 재훈련 없이 중첩 서브모델을 학습하고 배치하기 위한 메커니즘을 제안한다.
- 지식 전달을 보존하면서 디바이스 제약에 맞춰 추론 시점에 모델 너비를 동적으로 조정할 수 있도록 한다.
- 작은 서브모델의 특징 추출을 향상시키기 위한 자기 증류(self-distillation) 접근법을 도입한다.
제안 방법
- 레이어마다 순차적, 중첩된 방식으로 모델 너비를 가지치기하기 위해 Ordered Dropout(OD)을 도입한다.
- OD-활성 네트워크를 두 가지 모드로 훈련한다: 일반 OD와 지식 증류(KD)가 적용된 OD(OD w/ KD).
- OD가 선형 매핑에서 SVD를 회복함을 보여주고, 순서화된 중요도 표현을 확립한다.
- 장치 클러스터와 p-값을 연결해 FL에 FjORD 프레임워크를 적용하고 이질적인 클라이언트들 간에 WA 기반 집계를 수행한다.
- 가장 큰 서브모델에서 작은 서브모델로 지식을 전달하기 위해 교차 엔트로피와 KL 발산을 결합한 증류 기반 손실을 사용한다.
- CIFAR10, FEMNIST, Shakespeare에서 CNN과 RNN을 평가해 정확도 향상과 확장성을 평가한다.
실험 결과
연구 질문
- RQ1Ordered Dropout가 재훈련 없이도 가변 너비 서브모델을 가능하게 하는 효과적이고 중첩된 표현을 연합 학습 환경에서 제공할 수 있는가?
- RQ2이질적인 디바이스 능력을 갖춘 FL에서 FjORD의 성능이 최신 베이스라인과 비교해 어떠한가?
- RQ3FjORD에서 작은 서브모델의 성능이 지식 증류에 의해 향상되는가?
주요 결과
- FjORD는 데이터셋 전반에서 베이스라인을 지속적으로 능가하며, CIFAR10에서 eFD 대비 정확도 향상이 1.53에서 34.87pp, FEMNIST에서 1.57에서 6.27pp인 반면, Shakespeare에서는(0.01에서 0.82 포인트) 더 작은 이득을 보인다.
- FjORD+KD는 KD 없이 FjORD에 비해 특히 중간에서 큰 서브모델에서 의미 있는 개선을 보이며(CIFAR10 및 FEMNIST 예시).
- OD 프레임워크는 재훈련 없이 서로 다른 FLOPs와 크기를 가진 여러 서브모델을 추출할 수 있는 단일 모델의 훈련을 가능하게 하며, 추론 중 동적 적응도 지원한다.
- OD는 선형 매핑에서 SVD와 일치하는 최적의 b-랭크 근사 동작을 회복하여 순서화된 중요도 구조에 이론적 근거를 제공한다.
- FjORD는 더 많은 디바이스 클러스터(uniform-5 대 uniform-10)에 대한 확장성과 서로 다른 디바이스 분포(ds=0.5 대 ds=1.0)에 대한 적응성을 보여주되, 작은 서브모델의 성능 저하를 크게 방지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.