QUICK REVIEW

[논문 리뷰] AdaBatch: Adaptive Batch Sizes for Training Deep Neural Networks

Aditya Devarakonda, Maxim Naumov|arXiv (Cornell University)|2017. 12. 06.

Advanced Neural Network Applications참고 문헌 19인용 수 105

한 줄 요약

AdaBatch는 학습 중 배치 크기를 적응적으로 증가시켜 소배치 수렴 이점을 유지하면서 대배치 효율성을 얻는 방법을 제시하며, 멀티-GPU 환경에서 최소한의 정확도 손실로 최대 6.25배의 속도 향상을 보여준다.

ABSTRACT

Training deep neural networks with Stochastic Gradient Descent, or its variants, requires careful choice of both learning rate and batch size. While smaller batch sizes generally converge in fewer training epochs, larger batch sizes offer more parallelism and hence better computational efficiency. We have developed a new training approach that, rather than statically choosing a single batch size for all epochs, adaptively increases the batch size during the training process. Our method delivers the convergence rate of small batch sizes while achieving performance similar to large batch sizes. We analyse our approach using the standard AlexNet, ResNet, and VGG networks operating on the popular CIFAR-10, CIFAR-100, and ImageNet datasets. Our results demonstrate that learning with adaptive batch sizes can improve performance by factors of up to 6.25 on 4 NVIDIA Tesla P100 GPUs while changing accuracy by less than 1% relative to training with fixed batch sizes.

연구 동기 및 목표

SGD 기반 학습에서 소배치와 대배치 간의 트레이드오프를 다룬다.
학습 중 배치 크기를 점진적으로 늘리는 동적 배치 크기 조정 체계를 제안한다.
적응적 배칭이 정확도를 보존하면서 실행 시간 효율성을 향상시키는지 보여준다.
기존의 대배치 기법 및 학습률 스케줄과의 호환성을 입증한다.
표준 CNN 아키텍처 및 데이터셋(AlexNet, VGG, ResNet; CIFAR-10/100, ImageNet)에서 평가한다.

제안 방법

작업 시작은 작은 배치 크기로 하고 정의된 간격으로 점진적으로 늘린다.
알파/람다 비율(alpha/r)을 일정하게 유지하도록 학습률도 동시에 적응시킨다.
주기마다 배치 크기를 두 배로 늘리고 배치 증가를 유효 학습률 감소와 연관시킨다.
에포크당 계산량을 분석해 배치 증가에도 총 FLOPs가 대략 고정된다.
CIFAR 및 ImageNet에서 Adaptive batching을 고정 배치 크기와 경험적으로 비교한다.
AdaBatch를 기존의 대배치 학습 기법과 결합해 추가 속도 향상을 평가한다.

실험 결과

연구 질문

RQ1적응형 배치 크기가 소배치 학습의 수렴 및 정확도를 대배치 학습의 계산 효율성과 동시에 달성할 수 있는가?
RQ2CNN 학습에서 배치 크기를 점진적으로 증가시키는 것이 학습률 스케줄과 어떻게 상호작용하는가?
RQ3다중 GPU 환경에서 적용 시 실제 성능 향상 및 확장성 이점은 무엇인가?
RQ4AdaBatch가 기존의 대배치 전략과 어느 정도 통합되어 훈련 속도를 더 높이되 테스트 오류를 증가시키지 않는가?

주요 결과

네트워크	배치 크기	전방향 시간(속도향상)	역전파 시간(속도향상)
VGG19 BN	128	933.79 sec. (1×)	1571.35 sec. (1×)
VGG19 BN	128-2048	707.13 sec. (1.32×)	1322.59 sec. (1.19×)
ResNet-20	128	256.59 sec. (1×)	661.35 sec. (1×)
ResNet-20	128-2048	218.97 sec. (1.17×)	578.63 sec. (1.14×)
AlexNet	256	66.24 sec. (1×)	129.39 sec. (1×)
AlexNet	256-4096	44.34 sec. (1.49×)	89.69 sec. (1.44×)

적응형 배치 크기는 테스트 정확도를 테스트 네트워크 및 데이터셋에서 가장 작은 고정 배치 크기에 대해 1% 이내로 유지한다.
CIFAR-100에서 VGG19 및 ResNet-20에서 적응형 배칭은 각각 3.54×(VGG19) 및 6.25×(ResNet-20)의 속도 향상과 테스트 오차 차이가 2% 미만이다.
CIFAR-10/100 실험에서 적응형 배칭은 종종 가장 큰 고정 배치 크기보다 테스트 정확도에서 앞서고 벽시계 시간은 줄인다.
ImageNet 실험은 AdaBatch가 시작 배치 크기와 증가 계수에 따라 최종 테스트 오차를 크게 바꾸지 않으면서 큰 최종 배치 크기(일부 설정에서 최대 524,288)에 도달할 수 있음을 보인다.
표 1은 CIFAR-100에서 Adaptive vs Fixed 배치 크기의 에포크당 속도향상을 정량화하고 네트워크 간 향상된 소요 시간을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.