Skip to main content
QUICK REVIEW

[논문 리뷰] On Convergence of FedProx: Local Dissimilarity Invariant Bounds, Non-smoothness and Beyond

Xiao–Tong Yuan, Ping Li|arXiv (Cornell University)|2022. 06. 10.
Stochastic Gradient Optimization Techniques인용 수 30
한 줄 요약

이 논문은 FedProx에 대한 로컬 이질성 독립 수렴 경계를 개발하고, 매끄럽지 않거나 약볼록한 페더레이티드 설정으로 확장하며, 미니배치 확장 FedMSPP를 도입하여 미니배치 크기 및 장치 참여에 따른 선형 속도향상을 보여준다.

ABSTRACT

The FedProx algorithm is a simple yet powerful distributed proximal point optimization method widely used for federated learning (FL) over heterogeneous data. Despite its popularity and remarkable success witnessed in practice, the theoretical understanding of FedProx is largely underinvestigated: the appealing convergence behavior of FedProx is so far characterized under certain non-standard and unrealistic dissimilarity assumptions of local functions, and the results are limited to smooth optimization problems. In order to remedy these deficiencies, we develop a novel local dissimilarity invariant convergence theory for FedProx and its minibatch stochastic extension through the lens of algorithmic stability. As a result, we contribute to derive several new and deeper insights into FedProx for non-convex federated optimization including: 1) convergence guarantees independent on local dissimilarity type conditions; 2) convergence guarantees for non-smooth FL problems; and 3) linear speedup with respect to size of minibatch and number of sampled devices. Our theory for the first time reveals that local dissimilarity and smoothness are not must-have for FedProx to get favorable complexity bounds. Preliminary experimental results on a series of benchmark FL datasets are reported to demonstrate the benefit of minibatching for improving the sample efficiency of FedProx.

연구 동기 및 목표

  • 현실적인 데이터 이질성 하에서 엄격한 로컬 이질성 가정 없이 FedProx 수렴 동기를 제시하고 이해한다.
  • 로컬 이질성에 불변한 매끄럽고 비매끄러운 비볼록 페더레이션 최적화를 위한 수렴 경계를 도출한다.
  • 미니배치 확장 FedMSPP를 도입하고 그것의 모집단 최적 수렴을 분석한다.
  • 부분 참여와 미니배치가 수렴 속도와 통신 복잡도에 미치는 영향을 탐구한다.

제안 방법

  • vanilla FedProx의 로컬 이질성 불변 분석을 매끄러운 및 비매끄러운 설정 모두에서 제공한다.
  • 정리 1 도출: (B,H)-LGD 제약 없이 디바이스 샘플링이 있는 매끄러운 비볼록 FedProx의 수렴 속도.
  • 정리 2 도출: 디바이스 샘플링에 의존하지 않는 비매끄럽고 약볼록한 FedProx(정확한 로컬 업데이트)의 수렴 속도.
  • FedMSPP를 제안: 로컬 근사점 업데이트를 미니배치 확률점 업데이트로 대체한다.
  • 정리 3 및 4를 FedMSPP에 대해 매끄러운 및 비매끄러운 설정에서 제시하여 미니배치 크기와 참여에 따른 선형 속도향상을 보인다.
  • 표 1을 통해 LD-독립성과 비매끄럽게 적용가능성을 위치시키기 위해 다른 이질적 FL 알고리즘과 비교한다.

실험 결과

연구 질문

  • RQ1FedProx가 엄격한 로컬 이질성(LGD) 조건 없이 수렴 보장을 달성할 수 있는가?
  • RQ2수렴 보장이 비매끄럽고 약볼록한 페더레이션 최적화에도 확장되는가?
  • RQ3미니배치 확률 업데이트(FedMSPP)가 모집단 수준 수렴을 보존하면서 미니배치 크기 및 장치 참여에서 선형 속도를 낳는가?
  • RQ4샘플링과 부분 참여가 FedProx 및 FedMSPP의 수렴 속도와 통신 복잡도에 어떤 영향을 미치는가?
  • RQ5제안된 결과가 다양한 규칙(비매끄럽고, 부분 참여 등)에서 기존 이질적 FL 알고리즘과 어떻게 비교되는가?

주요 결과

작업논문통신 복잡도LD 독립성NSPP
FedProxLi 등(2020b)O(1/epsilon)
정리 1 (저자들)O(1/(I epsilon^2) + 1/epsilon^{3/2})
정리 2 (저자들)O(1/epsilon^2)
FedMSPP정리 3 (저자들)O(1/(b I epsilon^2) + 1/epsilon^{3/2})
정리 4 (저자들)O(1/epsilon^2)
FedAvgKarimireddy 등(2020)O(1/(b I epsilon^2) + 1/epsilon^{3/2} + 1/epsilon)
Yu 등(2019)O(1/(b M epsilon^2) + (M b)/epsilon)
Khanduri 등(2021)O(1/epsilon^{3/2})
SCAFFOLDKarimireddy 등(2020)O(1/(b I epsilon^2) + (M/I)^{2/3}/epsilon)
FedPDZhang 등(2020)O(1/epsilon)
STEMKhanduri 등(2021)O(1/epsilon)
FCOYuan 등(2021)O(1/(b M epsilon^2) + 1/epsilon)
  • 매끄럽고 비볼록 설정에서 로컬 이질성 유형 조건에 독립적이며 수렴 경계가 FedProx에 의해 달성되며, 속도는 T 및 I(라운드당 장치)에 의존한다.
  • 매끄러운 문제의 경우 속도는 max{1/T^{2/3}, 1/sqrt(T I)}로 한정되며 전체 참여하에 1/T^{2/3}로 개선; 부분 참여 시 속도는 1/(I epsilon^2) 유형의 복잡도로 나타난다.
  • 비매끄럽고 약볼록 문제의 경우 FedProx는 1/sqrt(T) 속도를 달성하며 선택된 디바이스 수 I에 독립적이다.
  • FedMSPP는 FedProx를 미니배치 확률 업데이트로 확장하여 매끄러운 문제에서 max{1/T^{2/3}, 1/sqrt(T b I)}의 속도를 달성하고 미니배치 크기 b 및 참여 I에서 선형 속도향상을 보인다.
  • 비매끄러운 FedMSPP의 경우 유사한 1/sqrt(T) 속도가 유지되어 실용적 효율 개선을 가능하게 한다.
  • 비교표 1은 FedMSPP 및 관련 알고리즘이 LD-독립성과 비매끄럽게 적용 가능성을 여러 벤치마크와 동등하거나 더 나은 수준으로 달성함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.