QUICK REVIEW

[논문 리뷰] High-Accuracy Low-Precision Training

Christopher De, Megan Leszczynski|arXiv (Cornell University)|2018. 03. 09.

Medical Imaging and Analysis참고 문헌 20인용 수 74

한 줄 요약

HALP는 SVRG를 비트 센터링과 결합하여 고정된 저정밀도에서 고정밀도에 상응하는 수렴 속도와 함께 고정밀도 없이 높은 정확도 훈련을 달성합니다. CPU에서 더 빠르게 실행되며, 전체 정밀도 SVRG 대비 3~4배 속도향상과 딥 러닝 작업에서 우수한 검증 성능을 보여줍니다.

ABSTRACT

Low-precision computation is often used to lower the time and energy cost of machine learning, and recently hardware accelerators have been developed to support it. Still, it has been used primarily for inference - not training. Previous low-precision training algorithms suffered from a fundamental tradeoff: as the number of bits of precision is lowered, quantization noise is added to the model, which limits statistical accuracy. To address this issue, we describe a simple low-precision stochastic gradient descent variant called HALP. HALP converges at the same theoretical rate as full-precision algorithms despite the noise introduced by using low precision throughout execution. The key idea is to use SVRG to reduce gradient variance, and to combine this with a novel technique called bit centering to reduce quantization error. We show that on the CPU, HALP can run up to $4 imes$ faster than full-precision SVRG and can match its convergence trajectory. We implemented HALP in TensorQuant, and show that it exceeds the validation performance of plain low-precision SGD on two deep learning tasks.

연구 동기 및 목표

모델 학습 중 시간 및 에너지 비용 감소를 위한 저정밀도 훈련 동기화.
고정 비트 폭으로 전체 정밀도 정확도를 유지하거나 근접시키는 알고리즘 개발.
저정밀 훈련에서 양자화 소음과 그래디언트 분산을 완화하는 방법 분석.

제안 방법

비트 센터링 없이 양자화에 의해 수렴이 제한되는 저정밀도 SVRG 변형 LP-SVRG를 제안합니다.
최적화가 진행됨에 따라 양자화 소음을 줄이기 위해 저정밀 표현을 동적으로 재센터링하고 재스케일링하는 비트 센터링을 적용한 HALP를 도입합니다.
HALP가 SVRG처럼 선형 수렴을 보존하지만 고정 비트 표현으로 임의의 높은 정확도까지 가능하다는 것을 증명합니다.
저정밀에서도 기울기 계산 및 업데이트를 수행하는 방법을 보여주는 선형 모델에 대한 실용적 구현을 제공합니다.
TensorQuant에서 LP-SVRG 및 LP-SGD와의 비교를 통해 딥러닝 및 로지스틱 회귀 작업을 평가합니다.

실험 결과

연구 질문

RQ1저정밀도 훈련 알고리즘이 강凸 문제에서 전체 정밀도 SVRG와 동일한 속도로 수렴할 수 있는가?
RQ2비트 센터링이 HALP가 고정 비트 저정밀 산술로 임의의 높은 정확도까지 달성하게 하는가?
RQ3현실적인 작업에서 HALP와 표준 저정밀 SGD 및 SVRG 간의 실질적 처리량/정확도 트레이드오프는 어떻게 되는가?
RQ4딥러닝 모델과 로지스틱 회귀에서 훈련 손실 및 검증 정확도 측면에서 LP-SVRG와 HALP의 성능은 어떤가?

주요 결과

알고리즘	전체 실행 시간	# FP 연산	# LP 연산	# LP 비트
SGD	O(\u0001κ log(1/ε)/ε)	O(\u0001κ/ε)	—	—
SVRG	O((N+κ) log^2(1/ε))	O((N+κ) log(1/ε))	—	—
LP-SVRG	O((N+κ) log^2(1/ε))	O(N log(1/ε))	O(κ log(1/ε))
HALP	O(N log^2(1/ε)+κ log(κ) log(1/ε))	O(N log(1/ε))	O(κ log(1/ε))	2 log(O(κ))

LP-SVRG는 양자화 델타에 의해 결정된 정밀도 제한된 이웃으로 선형적으로 수렴하며 정확도 바닥에 도달할 때까지 SVRG를 따라간다.
HALP는 최적화가 진행됨에 따라 비트 센터링을 사용하여 양자화 소음을 축소함으로써 임의의 높은 정확도까지 선형 수렴을 달성한다.
CPU에서 HALP는 MNIST에서 순수 SVRG 대비 최대 3배 빠르고 합성 10k 피처 데이터세트에서 최대 4배 빠르며, 딥 모델에서 SVRG의 검증 성능에 비해 같거나 더 우수한 경우가 많다.
딥러닝 실험에서 8-bit HALP는 CNN 및 LSTM의 훈련 손실을 전체 정밀도 SVRG과 근접하게 나타내며, 종종 LP-SVRG/LP-SGD 대비 검증 지표를 동일하거나 개선한다.
HALP는 다중 클래스 로지스틱 회귀 작업에서 정확도 면에서 LP-SVRG 및 LP-SGD보다 우수한 성능을 보이며, 반복 시간은 최대 4배 빠르면서도 LP-SGD의 1에 가까운 25% per-epoch 차이를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.