QUICK REVIEW

[논문 리뷰] Large batch size training of neural networks with adversarial training and second-order information

Zhewei Yao, Amir Gholami|arXiv (Cornell University)|2018. 10. 02.

Advanced Neural Network Applications참고 문헌 54인용 수 35

한 줄 요약

이 논문은 이차 헤시안 정보와 적대적 훈련을 활용한 적응형 배치 크기 훈련 프레임워크(ABSA)를 제안하여 대규모 배치 크기 신경망 훈련을 가속화한다. 레이 기반 탄성 클러스터링을 통한 동적 배치 크기 조정과 곡률 인식 학습률 조정을 통해 ABSA는 ImageNet에서 SGD 반복 수를 최대 5배 감소시키고 훈련 시간을 8.78배 단축시켰으며, 최소한의 하이퍼파rameter 튜닝으로 최신 기술 수준의 성능 향상을 달성한다.

ABSTRACT

The most straightforward method to accelerate Stochastic Gradient Descent (SGD) computation is to distribute the randomly selected batch of inputs over multiple processors. To keep the distributed processors fully utilized requires commensurately growing the batch size. However, large batch training often leads to poorer generalization. A recently proposed solution for this problem is to use adaptive batch sizes in SGD. In this case, one starts with a small number of processes and scales the processes as training progresses. Two major challenges with this approach are (i) that dynamically resizing the cluster can add non-trivial overhead, in part since it is currently not supported, and (ii) that the overall speed up is limited by the initial phase with smaller batches. In this work, we address both challenges by developing a new adaptive batch size framework, with autoscaling based on the Ray framework. This allows very efficient elastic scaling with negligible resizing overhead (0.32\% of time for ResNet18 ImageNet training). Furthermore, we propose a new adaptive batch size training scheme using second order methods and adversarial training. These enable increasing batch sizes earlier during training, which leads to better training time. We extensively evaluate our method on Cifar-10/100, SVHN, TinyImageNet, and ImageNet datasets, using multiple neural networks, including ResNets and smaller networks such as SqueezeNext. Our method exceeds the performance of existing solutions in terms of both accuracy and the number of SGD iterations (up to 1\% and $5 imes$, respectively). Importantly, this is achieved without any additional hyper-parameter tuning to tailor our method in any of these experiments.

연구 동기 및 목표

날카로운 손실 곡면으로 인한 일반화 성능 저하와 대규모 배치 SGD 훈련의 제한된 가속도 문제를 해결한다.
탄성 스케일링에도 불구하고 초기 소규모 배치 단계의 병목 현상으로 인해 전체 가속도가 제한되는 문제를 해결한다.
동적 배치 크기 및 클러스터 크기 조정을 위한 확장 가능하고 저비용 프레임워크를 개발하여 효율적인 대규모 배치 훈련을 가능하게 한다.
이차 헤시안 정보와 적대적 훈련을 통합하여 훈련 중 더 이르고 안전한 배치 크기 증가를 가능하게 한다.
다양한 데이터셋과 아키텍처에서 최소한의 하이퍼파rameter 튜닝으로 더 빠른 수렴과 더 높은 정확도를 달성한다.

제안 방법

손실 곡면 곡률에 기반해 Hessian 스펙트럼 분석을 활용해 동적으로 배치 크기와 학습률을 조정하는 적응형 배치 크기(ABS) 방법을 제안한다.
최소-최대 최적화를 통해 적대적 강건성과 ABS를 통합한 적응형 배치 크기 적대적(ABSA) 훈련을 도입하여 날카로운 최소값에 대한 암묵적 정규화를 유도한다.
레이 기반 분산 프레임워크를 구현하여 클러스터 크기 조정에 대한 거의 영향 없는 오버헤드(0.32%)를 제공하고 탄성 확장을 지원한다.
초기 훈련 단계에서 기울기 누적 기법을 사용해 1~2개의 GPU로도 효율적으로 Hessian 정보를 계산하여 Hessian 계산 비용을 최소화한다(총 시간의 9.3% 미만).
점진적으로 증가하는 배치 크기와 학습률을 갖는 웜업 단계를 도입하고, 최종 실험에서만 튜닝하여 수렴 속도를 더욱 향상시킨다.
적대적 훈련에서 유도되는 암묵적 정규화를 활용해 배치 크기를 조기에 증가시킬 경우 훈련을 안정화시켜 일반화 성능과 강건성을 향상시킨다.

실험 결과

연구 질문

RQ1이차 헤시안 정보는 훈련 중 더 이르고 안전한 배치 크기 증가를 가능하게 할 수 있는가? 특히 초기 소규모 배치 단계의 병목 현상을 줄일 수 있는가?
RQ2헤시안 기반 적응형 배치 크기 조정과 적대적 훈련을 결합하면 대규모 배치 훈련에서 일반화 성능과 강건성을 향상시킬 수 있는가?
RQ3레이 기반 프레임워크는 훈련 중 탄성적이고 저비용의 클러스터 크기 조정을 가능하게 할 수 있는가? 기존 방법의 통신 비용과 재시작 비용을 제거할 수 있는가?
RQ4정확도를 훼손하지 않으면서 SGD 반복 수를 얼마나 줄일 수 있는가? 특히 대규모 배치 크기로 확장할 경우에 대해 어떻게 되는가?
RQ5제안된 방법은 최소한의 하이퍼파rameter 튜닝으로 다양한 데이터셋과 아키텍처에서 최신 기술 수준의 성능 향상을 달성할 수 있는가?

주요 결과

ABSA는 CIFAR-10에서 SGD 반복 수를 최대 5배 감소시키고, ImageNet(ResNet18)에서는 28.8배 감소시켜 총 14.8K 업데이트로 70.04%의 Top-1 정확도를 달성한다.
최소한의 하이퍼파rameter 튜닝(단지 웜업 단계)으로도 ABSA는 ResNet18 ImageNet 훈련에서 8.78배의 가속도를 달성하여 총 훈련 시간을 125K에서 14.2K 초로 단축시켰다.
레이 기반 프레임워크는 클러스터 크기 조정에 대해 오직 0.32%의 오버헤드만 유발하여 효율적인 탄성 확장을 가능하게 하며 성능에 거의 영향을 주지 않는다.
헤시안 계산은 총 훈련 시간의 9.3%에 불과하며, 주요 병목은 소수의 GPU로 진행되는 초기 단계의 기울기 누적에 기인한다.
ABSA는 ResNet18을 사용해 CIFAR-10에서 90 에포크 동안 16K 최종 배치 크기를 사용해 84.24%의 정확도를 달성했으며, 표준 대규모 배치 SGD(76.82%)와 소규모 배치 SGD(83.05%)를 모두 능가한다.
이 방법은 아키텍처(ResNet, SqueezeNext, AlexNet)와 데이터셋(CIFAR-10/100, SVHN, TinyImageNet, ImageNet)에 걸쳐 일반화되며, 정확도와 반복 효율성 측면에서 일관되게 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.