QUICK REVIEW

[논문 리뷰] Image Classification at Supercomputer Scale

Chris Ying, Sameer Kumar|arXiv (Cornell University)|2018. 11. 16.

Advanced Neural Network Applications참고 문헌 1인용 수 95

한 줄 요약

이 논문은 ImageNet에서 ResNet-50을 대규모로 학습하기 위한 시스템 최적화를 제시하며, 1024칩 TPU v3 Pod에서 2.2분 만에 정확도 76.3%를 달성하고 초당 1.05백만 장이 넘는 처리량을 기록한다.

ABSTRACT

Deep learning is extremely computationally intensive, and hardware vendors have responded by building faster accelerators in large clusters. Training deep learning models at petaFLOPS scale requires overcoming both algorithmic and systems software challenges. In this paper, we discuss three systems-related optimizations: (1) distributed batch normalization to control per-replica batch sizes, (2) input pipeline optimizations to sustain model throughput, and (3) 2-D torus all-reduce to speed up gradient summation. We combine these optimizations to train ResNet-50 on ImageNet to 76.3% accuracy in 2.2 minutes on a 1024-chip TPU v3 Pod with a training throughput of over 1.05 million images/second and no accuracy drop.

연구 동기 및 목표

펫가스케일 petascale에서 깊은 신경망을 학습시키고 정확도를 보존하면서 월시간 wall-clock 시간을 줄인다.
가속기에서 대배치 동기 SGD를 저해하는 시스템 병목 현상을 식별한다.
글로벌 배치 크기와 replica당 배치 크기의 균형을 유지하는 기술을 개발하고 검증하여 모델 품질을 해치지 않는다.
최신의 처리량을 달성하고 정확도를 유지하는 결합 최적화를 보여준다.

제안 방법

합성정밀도 학습을 컨볼루션에 대해 bfloath16으로 사용하고 비컨볼루션 연산은 32비트를 사용한다.
warmup 및 감소를 포함한 선형 학습률 스케일링을 적용하고, 배치 크기를 최대 32768까지 확장하기 위해 LARS를 활용한다.
전역 배치 크기와 독립적으로 BN 통계를 제어하는 분산 배치 정규화를 도입한다.
데이터 셋 샤딩, 캐시, 프리패칭, 융합 JPEG 디코드 및 크롭, 병렬 구문 분석으로 입력 데이터 파이프라인을 최적화한다.
그래디언트 합산을 위한 2-D 토러스 올-리듀스 알고리즘을 채택하여 통신 지연을 줄인다.
1024칩 TPU v3 Pod에서의 성능을 시연하고 이전 결과와 비교한다.

실험 결과

연구 질문

RQ1분산 배치 정규화, 입력 파이프라인 최적화, 2-D 올-리듀스를 결합하여 대규모 규모의 동기 SGD를 가능하게 할 수 있는가?
RQ2대 replica 배치 크기, 글로벌 배치 크기, 그리고 모델 정확도 간의 트레이드오프는 대배치 학습에서 어떤 양상을 보이는가?
RQ3혼합 정밀도 및 스케일링 전략이 매우 큰 배치로 학습할 때 ImageNet의 ResNet-50 정확도를 유지할 수 있는가?
RQ4정확도 손실 없이 대형 TPU 팜에서 달성할 수 있는 종단 간 처리량과 wall-clock 시간은 얼마인가?

주요 결과

대규모에서도 이미지넷에서 ResNet-50을 정확도 76.3%로 학습시키고 정확도 저하 없이 확장했다.
1024-칩 TPU v3 Pod에서 2.2분의 학습 시간과 초당 1.05백만 장 이상의 처리량을 달성했다.
2-Dgradient 합산 torus 링크가 1-D 링 올-리듀스보다 지연 시간과 처리량 면에서 우수하여 확장 가능한 동기화를 가능하게 한다.
분산 BN은 글로벌 배치 크기에 의존하지 않고 BN의 유효 배치 크기를 제어할 수 있게 하여 대규모에서 정확도에 도움을 준다.
입력 파이프라인 최적화(캐싱, 프리패칭, 융합 JPEG 디코드/크롭, 병렬 구문 분석)는 데이터가 워커 간 샤딩될 때 특히 처리량을 크게 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.