Skip to main content
QUICK REVIEW

[논문 리뷰] QSGD: Communication-Optimal Stochastic Gradient Descent, with Applications to Training Neural Networks

Dan Alistarh, Demjan Grubic|arXiv (Cornell University)|2016. 10. 07.
Stochastic Gradient Optimization Techniques인용 수 4
한 줄 요약

QSGD는 양자화된 기울기 업데이트를 사용하여 증명 가능하게 수렴하는 깊이 신경망의 훈련을 가능하게 하는 통신 최적화된 확률적 기울기 하강법이다. QSGD는 모델 차원에 대해 비선형적일 정도로 통신 비용을 감소시키면서도 모델 정확도를 유지하거나 약간 향상시키며, ImageNet에서 ResNet-152를 16개 GPU에서 최대 1.8배 빠르게 훈련시킨다.

ABSTRACT

Parallel implementations of stochastic gradient descent (SGD) have received significant research attention, thanks to excellent scalability properties of this algorithm, and to its efficiency in the context of training deep neural networks. A fundamental barrier for parallelizing large-scale SGD is the fact that the cost of communicating the gradient updates between nodes can be very large. Consequently, lossy compression heuristics have been proposed, by which nodes only communicate quantized gradients. Although effective in practice, these heuristics do not always provably converge, and it is not clear whether they are optimal. In this paper, we propose Quantized SGD (QSGD), a family of compression schemes which allow the compression of gradient updates at each node, while guaranteeing convergence under standard assumptions. QSGD allows the user to trade off compression and convergence time: it can communicate a sublinear number of bits per iteration in the model dimension, and can achieve asymptotically optimal communication cost. We complement our theoretical results with empirical data, showing that QSGD can significantly reduce communication cost, while being competitive with standard uncompressed techniques on a variety of real tasks. In particular, experiments show that gradient quantization applied to training of deep neural networks for image classification and automated speech recognition can lead to significant reductions in communication cost, and end-to-end training time. For instance, on 16 GPUs, we are able to train a ResNet-152 network on ImageNet 1.8x faster to full accuracy. Of note, we show that there exist generic parameter settings under which all known network architectures preserve or slightly improve their full accuracy when using quantization.

연구 동기 및 목표

  • 깊이 신경망의 분산 SGD 훈련에서 높은 통신 비용 문제를 해결하기 위해.
  • 기본 가정 하에 수렴을 보장하는 압축 기법을 개발하기 위해.
  • 통신 효율성과 수렴 속도 사이의 조정 가능한 트레이드오프를 제공하기 위해.
  • 분산 훈련에서 점차적으로 최적의 통신 비용을 달성하기 위해.
  • 다양한 아키텍처와 작업에서 양자화가 모델 정확도를 유지하거나 향상시킴을 경험적으로 검증하기 위해.

제안 방법

  • QSGD는 각 노드에서 통신 전에 기울기 업데이트를 양자화하는 기울기 압축 기법의 가족을 도입한다.
  • 기울기 요소당 제어 가능한 비트 수를 갖는 무작위 양자화를 사용하여, 모델 차원에 대해 비선형적 통신 비용을 가능하게 한다.
  • 이 방법은 기울기를 유한한 양자화된 벡터 집합으로 매핑하는 압축 연산자를 포함하며, 수렴에 필수적인 방향 정보를 유지한다.
  • 기울기가 유계이고 리프시츠 연속성을 만족하는 등의 기본 가정 하에 이론적 수렴 보장을 수립한다.
  • 사용자가 기울기 요소당 비트 수를 조절하여 통신 비용과 수렴 속도 사이의 균형을 맞출 수 있도록 압축 기법을 제공한다.
  • 이 프레임워크는 대칭 및 비대칭 양자화를 모두 지원하며, 양자화로 인한 오차에 대한 이론적 경계를 제공한다.

실험 결과

연구 질문

  • RQ1분산 SGD에서 통신 비용을 줄이기 위해 기울기 양자화를 사용할 수 있으며, 수렴을 보장할 수 있는가?
  • RQ2수렴과 모델 정확도를 유지하기 위해 기울기 요소당 최소 몇 비트가 필요한가?
  • RQ3QSGD는 분산 훈련에서 점차적으로 최적의 통신 비용을 달성할 수 있는가?
  • RQ4정밀도가 감소했음에도 불구하고, 양자화가 종합적인 훈련 시간을 단축시키는가?
  • RQ5기울기 양자화가 모델 정확도를 유지하거나 향상시키는 조건은 무엇인가?

주요 결과

  • QSGD는 모델 차원에 대해 반복당 비선형적 비트 수로 통신 비용을 감소시켜 스케일러블한 분산 훈련을 가능하게 한다.
  • 16개 GPU에서 QSGD는 표준 압축이 없는 SGD에 비해 ResNet-152를 ImageNet에서 최고 정확도에 도달하기까지 1.8배 더 빠르게 훈련시켰다.
  • 양자화로 인한 성능 저하가 없었으며, 실제로 여러 아키텍처에서 일부 설정이 테스트 정확도를 유지하거나 약간 향상시켰다.
  • 이 방법은 점차적으로 최적의 통신 비용을 달성하여, 대규모 모델의 극한에서 다른 어떤 압축 기법보다도 더 나은 성능을 낼 수 없다.
  • 경험적 결과로는 이미지 분류 및 음성 인식 작업 모두에서 종합적인 훈련 시간이 크게 감소함을 보였다.
  • 이 프레임워크는 ResNet 및 자동 음성 인식용 모델을 포함한 다양한 딥러닝 모델에서 뛰어난 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.