[논문 리뷰] Federated Learning with Non-IID Data
논문은 FedAvg 성능이 비-IID 데이터가 클라이언트 간에 분포를 다르게 하여 어떻게 저하되는지 Earth Mover의 Distance(EMD)로 측정된 가중치 발산을 통해 분석하고, 전역적으로 공유되는 소량의 데이터셋을 활용한 데이터 공유 전략이 정확도를 회복하는지 제안한다.
Federated learning enables resource-constrained edge compute devices, such as mobile phones and IoT devices, to learn a shared model for prediction, while keeping the training data local. This decentralized approach to train models provides privacy, security, regulatory and economic benefits. In this work, we focus on the statistical challenge of federated learning when local data is non-IID. We first show that the accuracy of federated learning reduces significantly, by up to 55% for neural networks trained for highly skewed non-IID data, where each client device trains only on a single class of data. We further show that this accuracy reduction can be explained by the weight divergence, which can be quantified by the earth mover's distance (EMD) between the distribution over classes on each device and the population distribution. As a solution, we propose a strategy to improve training on non-IID data by creating a small subset of data which is globally shared between all the edge devices. Experiments show that accuracy can be increased by 30% for the CIFAR-10 dataset with only 5% globally shared data.
연구 동기 및 목표
- 클라이언트 간의 비-IID 데이터가 IID 설정과 비교하여 FedAvg 정확도를 얼마나 감소시키는지 정량화한다.
- FedAvg의 가중치 발산을 설명하고 클라이언트 분포와 모집단 분포 사이의 Earth mover’s distance(EMD) 간의 관계를 통해 그것을 한계짓는다.
- 비-IID 효과를 완화하기 위해 소량의 전역 공유 데이터셋을 사용하는 데이터 공유 전략을 제안하고, 이의 정확도에 미치는 영향을 평가한다.
제안 방법
- IID, 2-class 비-IID, 1-class 비-IID 파티션에서 FedAvg를 이용해 MNIST, CIFAR-10, 그리고 키워드 인식(KWS) 데이터셋을 평가한다.
- FedAvg와 중앙집중식 SGD 가중치 간의 상대적 거리를 가중치 발산의 정의로 사용한다.
- 클라이언트 분포와 모집단 분포 간의 EMD를 포함하는 가중치 발산의 상한을 증명한다.
- 가중치 발산을 EMD와 경험적으로 상관시키고 데이터셋 및 비-IID 설정 전반에서 정확도를 검증한다.
- 전역 공유 데이터셋(클래스 분포가 균일)을 초기화 시점에 사용하고 필요 시 분산 학습 전 G에서 예열 모델을 학습시키는 데이터 공유 전략을 제안하고 평가한다.
- 전역적으로 공유된 데이터의 비율(beta)와 그 데이터를 클라이언트에 분배하는 비율(alpha) 사이의 균형이 필요한 점을 시연하고, 부분 공유만으로도 의미 있는 이득을 얻을 수 있음을 보인다.
- G에서의 데이터 공유 워밍업 모델은 시작 시점의 성능을 높이고 이득을 얻기 위한 중앙 데이터 양을 줄여준다.
실험 결과
연구 질문
- RQ1클라이언트 간 비-IID 데이터 분포가 IID 데이터에 비해 FedAvg 정확도에 어떤 영향을 미치는가?
- RQ2FedAvg와 중앙집중식 SGD 간의 가중치 발산이 클라이언트 분포와 모집단 분포 간의 EMD의 함수에 의해 한정될 수 있는가?
- RQ3소량의 전역 공유 데이터세트를 도입하면 비-IID로 인한 정확도 손실이 완화될 수 있는가, 그리고 정도는 얼마나 되는가?
주요 결과
| 비 IID | B(배치 크기) | E(로컬 에폭) | MNIST (%) | CIFAR-10 (%) | KWS (%) |
|---|---|---|---|---|---|
| Non-IID(1) | large | 1 | 6.52 | 37.66 | 43.64 |
| Non-IID(1) | large | 5 | 6.77 | 37.11 | 43.62 |
| Non-IID(2) | large | 1 | 2.4 | 14.51 | 12.16 |
| Non-IID(1) | small | 1 | 11.31 | 51.31 | 54.5 |
| Non-IID(2) | small | 1 | 1.77 | 15.61 | 15.07 |
- 고도로 왜곡된 비-IID 데이터에서 FedAvg 정확도는 크게 하락할 수 있다(일부 설정에서 최대 55%).
- FedAvg와 중앙집중식 SGD 간의 가중치 발산은 데이터 왜곡이 커질수록 커지며, 클라이언트 분포와 모집단 분포 사이의 EMD를 포함하는 항으로 한정될 수 있다.
- EMD가 증가하면 가중치 발산이 커지고 검정 정확도가 감소한다; 비-IID 왜곡이 커질수록 정확도 손실과 더 큰 상관관계를 보이며 CIFAR-10에서 큰 하락이 나타난다.
- 전역적으로 공유되는 데이터가 클래스 분포가 균일한 소량의 데이터일 때 정확도를 크게 회복할 수 있으며, 예를 들어 CIFAR-10에서 5% 공유 데이터를 사용하면 약 30% 수준의 개선이 가능하다.
- 데이터 공유는 전역 공유 데이터의 양(beta)과 그 데이터를 클라이언트에 분배하는 비율(alpha) 사이의 균형을 필요로 하며, 부분 공유만으로도 의미 있는 이득이 나타난다.
- G에서의 데이터 공유 워밍업 모델은 시작 성능을 높이고 이득을 달성하기 위한 중앙 데이터 양을 줄여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.