[논문 리뷰] DisPFL: Towards Communication-Efficient Personalized Federated Learning via Decentralized Sparse Training
DisPFL은 비동등한 데이터와 이질적인 클라이언트 제약 하에서 분산희소 학습으로 개인화된 분산 학습을 가능하게 하여 통신과 계산을 줄이면서 사용자별 정확도를 향상시킨다.
Personalized federated learning is proposed to handle the data heterogeneity problem amongst clients by learning dedicated tailored local models for each user. However, existing works are often built in a centralized way, leading to high communication pressure and high vulnerability when a failure or an attack on the central server occurs. In this work, we propose a novel personalized federated learning framework in a decentralized (peer-to-peer) communication protocol named Dis-PFL, which employs personalized sparse masks to customize sparse local models on the edge. To further save the communication and computation cost, we propose a decentralized sparse training technique, which means that each local model in Dis-PFL only maintains a fixed number of active parameters throughout the whole local training and peer-to-peer communication process. Comprehensive experiments demonstrate that Dis-PFL significantly saves the communication bottleneck for the busiest node among all clients and, at the same time, achieves higher model accuracy with less computation cost and communication rounds. Furthermore, we demonstrate that our method can easily adapt to heterogeneous local clients with varying computation complexities and achieves better personalized performances.
연구 동기 및 목표
- 각 클라이언트의 개인화된 모델을 분산 설정에서 학습함으로써 데이터 이질성에 대응한다.
- 지속적인 희소 마스크와 분산 가십 스타일 업데이트를 통해 통신 및 계산 비용을 줄인다.
- 계산, 메모리 및 대역폭이 다른 이질적 클라이언트 기능을 수용한다.
- 희소하고 개인화된 분산 모델에 대한 이론적 일반화 인사이트를 제공한다.
- 표준 벤치마크에서 일반적인 비 IID 파티션 하의 성능을 실증적으로 검증한다.
제안 방법
- 전역 밀집 모델 w와 클라이언트 특이 마스크 mk를 가진 개인화 FL을 형식화하고 f(w, m1,...,mK) = (1/K) sum_k Fk(w ∘ mk)를 최적화한다.
- 용량 c_k에 맞추기 위해 Erdos-Renyi Kernel에서 추출된 희소 마스크로 각 클라이언트를 초기화한다.
- 활성 가중치의 교집합만 합산하는 수정된 가십 평균을 사용한다.
- 계산을 절약하기 위해 고정 희소 마스크로 로컬 학습을 수행한다.
- 개인화를 강화하기 위해 코사인 감소 프루닝과 그래디언트 기반 회복으로 각 클라이언트의 마스크를 업데이트한다.
- 전진 및 역전 파트를 활성 좌표에 한정하여 마스킹함으로써 계산 및 통신 절감 효과를 확보한다.
실험 결과
연구 질문
- RQ1비 IID FL 설정에서 분산 희소 학습 프레임워크가 통신을 줄이면서 개인화된 모델을 달성할 수 있는가?
- RQ2제안된 마스크 기반 개인화가 이웃 간 가십 평균과 어떻게 상호작용하여 정확도와 효율성을 균형 있게 달성하는가?
- RQ3계산, 메모리, 통신 측면에서 이질적 클라이언트 기능에 대해 Dis-PFL이 얼마나 잘 적응하는가?
- RQ4분산 희소 개인화 모델에 대해 어떤 이론적 일반화 경계를 확립할 수 있는가?
- RQ5표준 데이터셋(CIFAR-10/100, Tiny-ImageNet)에서 다양한 파티션과 토폴로지 하에 Dis-PFL이 중심화/분산 비교기보다 유리한가?
주요 결과
| 작업 | 방법 | Dir Part 정확도 | Path Part 정확도 | 통신(MB) | FLOPS (1e12) |
|---|---|---|---|---|---|
| CIFAR-10 | Local | 61.55 ± 0.2 | 86.48 ± 0.2 | - | 8.3 |
| CIFAR-10 | FedAvg | 78.07 ± 0.5 | 54.53 ± 0.6 | 446.9 | 8.3 |
| CIFAR-10 | FedAvg-FT | 81.20 ± 0.5 | 84.96 ± 0.2 | 446.9 | 8.3 |
| CIFAR-10 | D-PSGD | 79.02 ± 0.4 | 58.07 ± 0.5 | 446.9 | 8.3 |
| CIFAR-10 | D-PSGD-FT | 83.90 ± 0.2 | 90.87 ± 0.2 | 446.9 | 8.3 |
| CIFAR-10 | Ditto | 74.68 ± 0.2 | 87.73 ± 0.1 | 446.9 | 8.3 |
| CIFAR-10 | FOMO | 64.68 ± 0.2 | 88.24 ± 0.1 | 446.9 | 8.3 |
| CIFAR-10 | SubFedAvg | 76.70 ± 0.2 | 88.30 ± 0.2 | 278.8 | 4.7 |
| CIFAR-10 | Dis-PFL | 85.70 ± 0.2 | 91.05 ± 0.2 | 223.4 | 7.0 |
| CIFAR-100 | Local | 29.23 ± 0.2 | 52.46 ± 0.2 | - | 8.3 |
| CIFAR-100 | FedAvg | 41.72 ± 0.5 | 33.24 ± 0.6 | 448.7 | 8.3 |
| CIFAR-100 | FedAvg-FT | 49.19 ± 0.5 | 63.53 ± 0.7 | 448.7 | 8.3 |
| CIFAR-100 | D-PSGD | 41.87 ± 0.4 | 35.42 ± 0.2 | 448.7 | 8.3 |
| CIFAR-100 | D-PSGD-FT | 51.42 ± 0.4 | 67.24 ± 0.1 | 448.7 | 8.3 |
| CIFAR-100 | Ditto | 38.26 ± 0.2 | 54.02 ± 0.3 | 448.7 | 8.3 |
| CIFAR-100 | FOMO | 28.39 ± 0.1 | 52.74 ± 0.1 | 448.7 | 8.3 |
| CIFAR-100 | SubFedAvg | 43.91 ± 0.2 | 60.67 ± 0.1 | 346.6 | 5.7 |
| CIFAR-100 | Dis-PFL | 53.48 ± 0.3 | 68.64 ± 0.4 | 224.3 | 7.0 |
| Tiny-Imagenet | Local | 6.76 ± 0.2 | 17.68 ± 0.3 | - | 66.6 |
| Tiny-Imagenet | FedAvg | 12.30 ± 0.3 | 10.40 ± 0.3 | 450.7 | 66.6 |
| Tiny-Imagenet | FedAvg-FT | 14.80 ± 0.2 | 28.30 ± 0.2 | 450.7 | 66.6 |
| Tiny-Imagenet | D-PSGD | 12.13 ± 0.5 | 16.50 ± 0.4 | 450.7 | 66.6 |
| Tiny-Imagenet | D-PSGD-FT | 15.50 ± 0.3 | 28.60 ± 0.3 | 450.7 | 66.6 |
| Tiny-Imagenet | Ditto | 15.69 ± 0.2 | 24.55 ± 0.3 | 450.7 | 66.6 |
| Tiny-Imagenet | FOMO | 5.20 ± 0.4 | 9.39 ± 0.3 | 450.7 | 66.6 |
| Tiny-Imagenet | SubFedAvg | 12.18 ± 0.4 | 19.73 ± 0.5 | 290.9 | 40.2 |
| Tiny-Imagenet | Dis-PFL | 16.95 ± 0.4 | 31.71 ± 0.4 | 225.3 | 54.5 |
- Dis-PFL은 Dirichlet 및 경로 파티션 하에서 CIFAR-10, CIFAR-100, Tiny-Imagenet의 테스트 정확도에서 중앙집중형 및 분산 기반 비교대상보다 우수하다.
- Dis-PFL은 로컬 개인화 정확도(Path Part)가 더 높고 피어투피어 통신(Comm)은 더 적으며 FLOPs가 같거나 낮다.
- 제한된 토폴로지(링, FC, 시간에 따라 변하는 연결) 하에서 목표 정확도에 도달하는데 필요한 통신 라운드를 줄인다.
- 이질적이며 다양한 용량의 클라이언트를 서로 다른 희소성 마스크를 부여함으로써 수용할 수 있어 강한 성능을 유지한다.
- 학습된 희소 마스크는 데이터 분포와 일치하며 클라이언트 간 해석 가능한 유사성을 보이며 개인화 이점을 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.