QUICK REVIEW

[논문 리뷰] Faster On-Device Training Using New Federated Momentum Algorithm

Zhouyuan Huo, Qian Yang|arXiv (Cornell University)|2020. 02. 06.

Privacy-Preserving Technologies in Data참고 문헌 43인용 수 36

한 줄 요약

논문은 비凸 문제에 대해 FedAvg의 수렴을 입증하고, 수렴 보장을 갖는 FedMom이라는 가속 페더레이티드 모멘텀 방법을 도입하여 시뮬레이션에서 더 빠른 수렴을 보임.

ABSTRACT

Mobile crowdsensing has gained significant attention in recent years and has become a critical paradigm for emerging Internet of Things applications. The sensing devices continuously generate a significant quantity of data, which provide tremendous opportunities to develop innovative intelligent applications. To utilize these data to train machine learning models while not compromising user privacy, federated learning has become a promising solution. However, there is little understanding of whether federated learning algorithms are guaranteed to converge. We reconsider model averaging in federated learning and formulate it as a gradient-based method with biased gradients. This novel perspective assists analysis of its convergence rate and provides a new direction for more acceleration. We prove for the first time that the federated averaging algorithm is guaranteed to converge for non-convex problems, without imposing additional assumptions. We further propose a novel accelerated federated learning algorithm and provide a convergence guarantee. Simulated federated learning experiments are conducted to train deep neural networks on benchmark datasets, and experimental results show that our proposed method converges faster than previous approaches.

연구 동기 및 목표

개인정보 보호 분산 데이터와 함께 온-디바이스 학습을 위한 페더레이티드 러닝의 필요성을 제시한다.
비볼록 문제에 대한 FedAvg의 수렴 분석을 데이터 분포에 대한 제한된 가정 없이 제공한다.
서버에서 모멘텀을 사용한 가속 페더레이티드 최적화 방법(FedMom)을 제안하고 분석한다.
신경망으로 구성된 시뮬레이션 실험을 통해 제안된 방법의 더 빠른 수렴을 시연한다.

제안 방법

FedAvg의 모델 평균화를 biased gradients를 가지는 gradient 기반 업데이트로 재정의한다.
표준 가정(제한된 분산 및 Lipschitz 연쇄)에 따라 비볼록 문제에 대한 FedAvg의 수렴을 보인다.
서버에서 Nesterov 스타일의 모멘텀을 사용한 수렴 보장된 가속 페더레이티드 모멘텀 알고리즘(FedMom)을 도출한다.
v_{t+1} = w_t - eta * sum_{k in S_t} (n_k/n) (w_t - w_{t+1}^k) 와 w_{t+1} = v_{t+1} + beta (v_{t+1} - v_t})를 정의하고 분석한다.
수렴에 대한 그라디언트 노름의 이론적 한계와 학습률 및 모멘텀의 수렴 조건을 명시한다.

실험 결과

연구 질문

RQ1비볼록 목표 함수를 갖는 경우 Restrictive 데이터 분포 가정 없이 FedAvg가 수렴하는가?
RQ2연합 학습의 FedMom 방법이 비볼록 문제에 대한 수렴 보장을 유지하면서 수렴을 가속할 수 있는가?
RQ3연합 설정에서 수렴을 위해 필요한 스텝사이즈, 로컬 업데이트 수, 모멘텀의 조건은 무엇인가?
RQ4연합 그라디언트의 바이어스가 수렴에 어떤 영향을 미치는가, 그리고 가속이 이를 완화할 수 있는가?

주요 결과

FedAvg는 제한된 분산 및 Lipschitz 그래디언트 가정 하에서 비볼록 문제에 대해 임계점으로 수렴하는 것이 보장된다.
서버 측 모멘텀을 가진 새로운 가속 페더레이티드 학습 알고리즘(FedMom)이 제안되었고 비볼록 문제에 대해 임계점으로 수렴하는 것이 입증된다.
특정 스텝사이즈 및 모멘텀 매개변수에서 임계점으로의 수렴 속도에 대한 이론적 한계가 제시되며, 매개변수 선택에 대한 지침을 제공한다.
심층 신경망의 시뮬레이티드 페더레이티드 학습은 같은 설정에서 제안된 방법이 이전 접근법보다 더 빠르게 수렴함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.