[논문 리뷰] Don't Use Large Mini-Batches, Use Local SGD
본 논문은 large-batch SGD가 일반화에 미흡하다는 것을 보여주고, 일반화 및 효율성을 개선하기 위해 post-local SGD와 hierarchical local SGD를 도입하여 표준 벤치마크에서 대규모 배치 베이스라인을 능가한다.
Mini-batch stochastic gradient methods (SGD) are state of the art for distributed training of deep neural networks. Drastic increases in the mini-batch sizes have lead to key efficiency and scalability gains in recent years. However, progress faces a major roadblock, as models trained with large batches often do not generalize well, i.e. they do not show good accuracy on new data. As a remedy, we propose a \emph{post-local} SGD and show that it significantly improves the generalization performance compared to large-batch training on standard benchmarks while enjoying the same efficiency (time-to-accuracy) and scalability. We further provide an extensive study of the communication efficiency vs. performance trade-offs associated with a host of \emph{local SGD} variants.
연구 동기 및 목표
- 분산 학습에서 매우 큰 미니배치 SGD와 관련된 일반화 이슈를 제시한다.
- 워커, 로컬 스텝, 미니배치 크기 간의 로컬 SGD의 트레이드오프를 체계적으로 연구한다.
- 효율성을 유지하면서 일반화를 회복하기 위해 post-local SGD를 제안한다.
- 이종 하드웨어 환경에서 시스템 자원 사용을 최적화하기 위해 계층적 로컬 SGD를 제안한다.
제안 방법
- 각 워커가 평균화 전에 미니배치 B_loc로 H개의 로컬 SGD 업데이트를 수행하는 로컬 SGD를 정의한다(Eq. 2).
- 통신 효율성과 일반화 성능의 시나리오에서 로컬 SGD와 미니배치 SGD를 비교한다.
- 표준 미니배치 SGD에서 단계 t′ 이후 로컬 SGD로 전환하여 더 큰 유효 배치 크기를 달성하고 더 나은 일반화를 얻는 방식의 post-local SGD를 도입한다.
- 계통의 여러 수준에서 로컬 업데이트를 적용하여 계산-통신 트레이드오프를 최적화하기 위해 계층적 로컬 SGD를 제안한다.
- 로컬 업데이트를 확률적 잡음 주입과 연관시키고 학습 동역학과 일반화에 미치는 시사점을 논의한다.
실험 결과
연구 질문
- RQ1의사소통 제약 하에서 Local SGD가 time-to-accuracy에서 미니배치 SGD에 비해 동등하거나 더 나은 성능을 보일 수 있는가?
- RQ2동일한 유효 배치 크기에서 로컬 SGD가 대규모 배치 SGD에 비해 일반화를 향상시키는가?
- RQ3대규모 배치와 관련된 일반화 격차를 post-local SGD가 효율성을 희생하지 않고 줄이는가?
- RQ4이종 컴퓨팅 환경에서 계층적 로컬 SGD가 자원 사용을 어떻게 최적화할 수 있는가?
주요 결과
- Local SGD는 CIFAR-10/100 및 ImageNet에서 일반화가 우수한 커뮤니케이션 효율적인 미니배치 SGD의 대안으로 작용할 수 있다.
- post-local SGD는 대규모 배치 훈련의 일반화 격차를 해소하고 작은 배치 베이스라인과 대규모 배치 베이스라인 모두보다 더 나은 일반화를 달성할 수 있다.
- post-local SGD는 CIFAR에서 일반화가 개선되면서 전체 훈련 시간 대비 최소 1.3배의 속도 향상을 제공하고, ImageNet에서도 대규모 글로벌 배치 크기로 강한 성능을 보인다.
- 워커 수가 증가함에 따라 더 적은 통신 라운드로 인해 Local SGD가 time-to-accuracy에서 미니배치 SGD보다 더 잘 확장된다.
- post-local SGD는 부호 기반 압축과 결합되어 정확도를 희생하지 않으면서 통신 효율을 더 개선할 수 있다.
- post-local SGD는 대규모 배치 SGD보다 더 완만한 최소를 향하는 경향이 있어 일반화 개선에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.