Skip to main content
QUICK REVIEW

[논문 리뷰] Is Local SGD Better than Minibatch SGD?

Blake Woodworth, Kumar Kshitij Patel|arXiv (Cornell University)|2020. 02. 18.
MRI in cancer diagnosis참고 문헌 37인용 수 45
한 줄 요약

논문은 local SGD(병렬/federated averaging)를 분석하고 이차 목적함수에서 local SGD가 minibatch SGD를 엄밀히 능가할 수 있으며 가속 버전이 minimax 최적임을 보인다; 일반 볼록 목적함수에는 local SGD가 minibatch SGD를 이기는 구간이 있지만, minibatch SGD가 local SGD를 능가하는 구간도 있으며, local SGD가 보편적으로 최적은 아니다.

ABSTRACT

We study local SGD (also known as parallel SGD and federated averaging), a natural and frequently used stochastic distributed optimization method. Its theoretical foundations are currently lacking and we highlight how all existing error guarantees in the convex setting are dominated by a simple baseline, minibatch SGD. (1) For quadratic objectives we prove that local SGD strictly dominates minibatch SGD and that accelerated local SGD is minimax optimal for quadratics; (2) For general convex objectives we provide the first guarantee that at least sometimes improves over minibatch SGD; (3) We show that indeed local SGD does not dominate minibatch SGD by presenting a lower bound on the performance of local SGD that is worse than the minibatch SGD guarantee.

연구 동기 및 목표

  • Local SGD와 같은 계산/통신 구조 하에서 분산된 1차 방법 연구를 고무한다.
  • convex and quadratic objectives에 대해 Local SGD가 minibatch SGD를 개선하는 시점을 특징짓는다.
  • Minibatch SGD가 여전히 압도적이거나 Local SGD가 열등한 구간들을 식별한다.
  • Local SGD의 성능 트레이드를 명확히 하는 상한 및 하한을 제시한다.

제안 방법

  • M workers로 Local SGD를 모델링하고, 각 통신마다 K개의 로컬 스텝, 그리고 R 라운드의 통신을 가정한다.
  • 매 라운드에 총 배치 크기 KM인 minibatch SGD와 Local SGD를 비교한다.
  • H-smoothness 및 분산 한계 sigma^2를 가진 일반 볼록/강볼록 확률 최적화 프레임워크를 사용하여 분석한다.
  • 이차 목표에서 local SGD의 평균화가 minibatch SGD와 일치하거나 이를 능가함을 보이는 결과를 증명한다.
  • 특정 구간에서 minibatch SGD를 능가할 수 있는 일반 볼록 목표에 대한 최초의 의미 있는 상한을 도출한다.
  • 일부 구간에서 Local SGD가 minibatch SGD보다 나쁠 수 있음을 보여주는 어려운 사례를 구성한다.

실험 결과

연구 질문

  • RQ1이차 설정에서 Local SGD가 minibatch SGD를 지배하는가 아니면 최소한 동등한가?
  • RQ2일반 볼록 목표에서 Local SGD가 minibatch SGD를 능가할 수 있는가, 어떤 조건에서인가?
  • RQ3일부 구간에서 Local SGD가 minibatch SGD보다 나쁠 수 있음을 보여주는 근본적 하한이 있는가?
  • RQ4동일한 계산/통신 제약 하에서 Local SGD 성능을 기술하는 정확한 상한 및 하한은 무엇인가?

주요 결과

  • 이차 목적함수의 경우, Local SGD는 minibatch SGD를 엄밀히 지배하고 가속화된 Local SGD는 minimax 최적이다.
  • 일반 볼록 목표에서는 (크게 M이고 K ≳ R일 때) Local SGD가 minibatch SGD를 개선하는 구간이 있다.
  • 일부 구간에서 Local SGD가 minibatch SGD보다 나쁠 수 있음을 보여주는 하한이 존재하고, 실험적 결과(로지스틱 회귀)가 이 동작과 일치한다.
  • 전반적으로 Local SGD는 자주 minibatch SGD보다 좋지만 보편적으로 최적은 아니며, minibatch SGD나 thumb-twiddling SGD가 Local SGD를 능가하는 구간이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.