QUICK REVIEW

[논문 리뷰] On the Computational Inefficiency of Large Batch Sizes for Stochastic Gradient Descent

Noah Golmant, Nikita Vemuri|arXiv (Cornell University)|2018. 11. 30.

Advanced Neural Network Applications참고 문헌 31인용 수 46

한 줄 요약

이 논문은 SGD 미니배치 크기를 증가시키면 수렴 속도에서 수익 감소가 생기고 종종 전체 계산 비용이 증가하며, 임계 배치 크기는 현재 GPU 용량보다 훨씬 작고 다수 도메인에서 더 큰 배치일수록 성능이 저하된다는 점을 보여준다.

ABSTRACT

Increasing the mini-batch size for stochastic gradient descent offers significant opportunities to reduce wall-clock training time, but there are a variety of theoretical and systems challenges that impede the widespread success of this technique. We investigate these issues, with an emphasis on time to convergence and total computational cost, through an extensive empirical analysis of network training across several architectures and problem domains, including image classification, image segmentation, and language modeling. Although it is common practice to increase the batch size in order to fully exploit available computational resources, we find a substantially more nuanced picture. Our main finding is that across a wide range of network architectures and problem domains, increasing the batch size beyond a certain point yields no decrease in wall-clock time to convergence for \emph{either} train or test loss. This batch size is usually substantially below the capacity of current systems. We show that popular training strategies for large batch size optimization begin to fail before we can populate all available compute resources, and we show that the point at which these methods break down depends more on attributes like model architecture and data complexity than it does directly on the size of the dataset.

연구 동기 및 목표

다양한 아키텍처와 과제에 걸쳐 미니배치 크기에 따라 SGD 수렴 속도가 어떻게 스케일링되는지 평가한다.
배치 크기 스케일링의 구간을 정량화한다: 선형 이득, 체감 수익, 그리고 정체.
일반적인 대형 배치 최적화 기법이 문제 전반의 비효율성을 완화하는지 평가한다.
데이터 세트 크기를 넘어서는 요인들(모델 아키텍처, 데이터 복잡도)이 대형 배치 성능에 어떤 영향을 미치는지 이해한다.

제안 방법

미니배치 기울기로 SGD를 형식화하고 수렴까지의 반복 횟수를 벽시계 시간 프록시로 정의한다.
여러 아키텍처와 과제(이미지 분류, 세분화, NLP)에서 실험적으로 배치 크기를 다양하게 변화시킨다.
기본 학습률 전략, 선형 스케일링 규칙(LSR), 제곱근 스케일링 규칙(SRSR)을 비교한다.
고정 손실 임계값에 도달하기 위한 반복 횟수로 수렴 속도를 측정하고 일반화 영향도 평가한다.
데이터 세트 크기, 모델 아키텍처, 데이터 복잡도가 속도 증가 곡선과 임계 배치 크기에 어떤 영향을 미치는지 분석한다.

실험 결과

연구 질문

RQ1다양한 아키텍처와 과제에 걸쳐 배치 크기와 SGD 수렴 속도 간의 관계는 무엇인가?
RQ2반복 감소가 더 이상 일어나지 않는 임계 배치 크기가 존재하는가, 그리고 그것이 하드웨어 용량과 어떻게 관련되는가?
RQ3대형 배치 최적화 휴리스틱(LSR, SRSR)이 문제 전반에서 수렴 속도 저하나 일반화 격차를 완화하는가?
RQ4모델 아키텍처와 데이터 복잡도가 데이터 세트 크기에 비해 대형 배치 효율성을 결정하는 데 어떤 차이를 만드는가?

주요 결과

Dataset	Task	Architecture	Training Strategy	BS range
MNIST	IC	ResNet34	BLR, LSR ( η0=0.1, W=10, E=200)	2^6 – 2^14
CIFAR-10	IC	AlexNet, MobileNetV2	BLR, LSR, SRSR	2^6 – 2^14
ResNet34, VGG16	IC	( η0=0.1, W=10, E=200)	BLR, LSR	2^6 – 2^14
CIFAR-100	IC	ResNet34	BLR, LSR ( η0=0.1, W=10, E=200)	2^6 – 2^14
SVHN	IC	ResNet34	BLR, LSR ( η0=0.1, W=10, E=200)	2^6 – 2^14
WikiText-2	NLP	LSTM	BLR, LSR ( η0=20, W=3, E=40)	2^3 – 2^10
Cityscapes	IS	DRN-D-22	BLR, LSR ( η0=0.01, W=10, E=100)	2^3 – 2^11

일정한 배치 크기를 넘어서면 m을 늘려도 수렴까지의 반복 횟수가 거의 감소하지 않는다(완벽한 병렬 처리에도 불구하고).
더 큰 배치가 일반화 오차를 높이고 기존의 완화 기법은 종종 실패하거나 수렴하지 않으며, 특히 비이미지 영역에서 그렇다.
수렴 속도 이득은 데이터 세트 크기보다 모델 아키텍처와 데이터 복잡도에 더 의존하며, 문제 의존적인 임계 배치 크기가 관찰된다.
이미지, 분할, NLP 과제 전반에서 속도 향상의 체감 수익이 나타나며, 정체점은 아키텍처와 데이터 복잡도에 따라 달라진다.
일부 문제에 효과적인 대형 배치 전략은 도메인 간 일반화되지 않으며 종종 안정성을 유지하지 못한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.