[논문 리뷰] AdaComp : Adaptive Residual Gradient Compression for Data-Parallel Distributed Training
AdaComp는 적응적이고 지역화된 잔차 기울기 압축을 도입하여 미니배치와 계층 전체에서 속도를 스스로 조정하며, FC/LSTM에 대해 엔드 투 엔드 약 200배 압축, Conv 계층에 대해 약 40배의 압축을 거의 정확도 손실 없이 달성한다.
Highly distributed training of Deep Neural Networks (DNNs) on future compute platforms (offering 100 of TeraOps/s of computational capacity) is expected to be severely communication constrained. To overcome this limitation, new gradient compression techniques are needed that are computationally friendly, applicable to a wide variety of layers seen in Deep Neural Networks and adaptable to variations in network architectures as well as their hyper-parameters. In this paper we introduce a novel technique - the Adaptive Residual Gradient Compression (AdaComp) scheme. AdaComp is based on localized selection of gradient residues and automatically tunes the compression rate depending on local activity. We show excellent results on a wide spectrum of state of the art Deep Learning models in multiple domains (vision, speech, language), datasets (MNIST, CIFAR10, ImageNet, BN50, Shakespeare), optimizers (SGD with momentum, Adam) and network parameters (number of learners, minibatch-size etc.). Exploiting both sparsity and quantization, we demonstrate end-to-end compression rates of ~200X for fully-connected and recurrent layers, and ~40X for convolutional layers, without any noticeable degradation in model accuracies.
연구 동기 및 목표
- 데이터 병렬 분산 DNN 학습에서 통신 병목 현상을 해결한다.
- 다양한 계층 유형에 대해 보편적으로 적용 가능하고 계산 친화적인 기울기 압축 체계를 개발한다.
- 추가 조정 없이 미니배치, 계층 및 하이퍼파라미터 전반에 걸쳐 압축 속도를 자동으로 적응시킨다.
- 희소성 및 양자화를 활용하여 수렴을 보장하면서 높은 엔드-투-엔드 압축을 달성한다.
- 데이터셋, 아키텍처 및 옵티마이저 전반에 걸친 강건성을 보여준다.
제안 방법
- 계층 잔차 벡터를 고정 크기의 빈으로 나누고 각 빈의 최댓값을 계산하여 중요한 기울기를 식별한다.
- 각 빈 내에서 로컬 최댓값뿐만 아니라 잔차에 적용된 규모 인자(경험적으로 2x)에 기반한 자체 조정 임계치를 사용하여 인근 기울기도 선택한다.
- 선택된 기울기를 양자화하여 압축을 증가시키는 한편 수렴을 유지하기 위해 잔차를 전송한다.
- AdaComp를 각 계층에 독립적으로 적용한다; 학습자들은 압축된 기울기를 교환한 후 학습자 간 평균화하여 가중치를 업데이트한다.
- 양자화 표현(부호 + 스케일)을 위해 단일 계층 전체 스케일 값( g_max의 절대값의 평균)을 사용한다.
- 이 방법은 bin 크기를 제어하는 새로운 하이퍼파라미터 하나(L_T)만 필요하며 전역 정렬 없이 O(N) 계산을 달성한다.
실험 결과
연구 질문
- RQ1그레이디언트 통신을 계층 유형(FC, conv, 순환) 및 네트워크 아키텍처에 대해 견고하게 만들면서 어떻게 압축할 수 있는가?
- RQ2지역적으로 적응하는 임계 임계 기반 기울기 선택 체계가 다양한 데이터셋과 옵티마이저에서 수렴을 보존할 수 있는가?
- RQ3다양한 계층 유형에 대해 정확도를 저하시키지 않으면서 엔드 투 엔드에서 달성 가능한 압축 속도는 어느 정도인가?
- RQ4미니배치 크기와 학습자 수가 AdaComp의 달성 가능한 압축에 어떤 영향을 미치는가?
- RQ5이 접근법은 가속기 친화성을 유지하면서 대규모 분산 시스템에 확장 가능한가?
주요 결과
- AdaComp는 완전 연결 및 순환 계층에 대해 약 ~200x 엔드-투-엔드 압축을 달성하고, 합성곱 계층에 대해 약 ~40x를 달성한다.
- 압축으로 인해 MNIST, CIFAR10, ImageNet, BN50, Shakespeare 데이터셋에서 CNN, DNN, LSTM 전반에 걸쳐 모델 정확도가 보존된다.
- 이 방법은 다양한 미니배치 크기와 학습자 수에서도 SGD 및 Adam 옵티마이저와의 수렴을 유지한다.
- AdaComp는 자체 조정 임계치로 인해 초고압축 비율에 강건하며, 기존의 스키마는 높은 압축에서 수렴하지 못하는 반면 이를 견딘다.
- 미니배치 크기를 키우면 달성 가능한 압축이 감소하고, 더 많은 학습자가 있으면 AdaComp의 압축을 증가시키되 정확도를 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.