QUICK REVIEW

[논문 리뷰] Augment your batch: better training with larger batches

Elad Hoffer, Tal Ben‐Nun|arXiv (Cornell University)|2019. 01. 27.

Machine Learning and Algorithms참고 문헌 37인용 수 50

한 줄 요약

Batch Augmentation (BA) 은 샘플당 여러 개의 증강을 적용하여 유효 배치 크기를 확장하고, 학습률 스케줄을 변경하지 않으면서 수렴 속도와 최종 일반화 성능을 향상시킨다.

ABSTRACT

Large-batch SGD is important for scaling training of deep neural networks. However, without fine-tuning hyperparameter schedules, the generalization of the model may be hampered. We propose to use batch augmentation: replicating instances of samples within the same batch with different data augmentations. Batch augmentation acts as a regularizer and an accelerator, increasing both generalization and performance scaling. We analyze the effect of batch augmentation on gradient variance and show that it empirically improves convergence for a wide variety of deep neural networks and datasets. Our results show that batch augmentation reduces the number of necessary SGD updates to achieve the same accuracy as the state-of-the-art. Overall, this simple yet effective method enables faster training and better generalization by allowing more computational resources to be used concurrently.

연구 동기 및 목표

대규모 배치 SGD의 과제와 하이퍼파라미터 튜닝 없이 일반화 저하를 유도하는 문제를 동기 부여한다.
배치 내에서 샘플당 다중 변환된 복사본을 사용하는 간단한 규제자이자 가속기로서의 Batch Augmentation 을 제안한다.
BA 가 기울기 분산과 수렴에 미치는 이론적·실험적 영향을 분석한다.
다양한 아키텍처와 하드웨어 구성에서 CIFAR-10/100, ImageNet, 그리고 언어 모델링에 BA의 효과를 입증한다.

제안 방법

배치의 각 입력 x_n 에 대해 M 개의 증강 인스턴스 T_i(x_n) 를 만들어 효적으로 배치를 크기 M·B 로 정의한다.
BA 가 적용된 업데이트 규칙: w_{t+1} = w_t - η / (M·B) ∑_{i=1}^M ∑_{n∈B(k(t))} ∇_w ℓ(w_t, T_i(x_n), y_n).
표준 대형 배치 학습에 비해 BA 가 기울기/헤essian 분산을 감소시켜 일반화가 좋지 않은 해로의 수렴을 완화한다고 주장한다.
λ_max (배치 평균 Hessian 의 최대 고유값) 와 SGD 수렴의 이론적 연결과 BA 의 상관된 기울기가 이를 어떻게 바꿀 수 있는지에 대한 이론적 논의를 제공한다.
BA 하에서 기울기 상관관계와 분산을 실증적으로 측정하여 분산 감소와 개선된 학습 다이나믹스를 보여준다.
다중 GPU 및 Cray 슈퍼컴퓨터 시스템에서의 분산 BA 구현 및 확장성을 시연한다.

실험 결과

연구 질문

RQ1배치 증강이 학습률 스케줄을 변경하지 않고도 대형 배치 SGD의 일반화를 향상시키는가?
RQ2BA 가 데이터셋과 모델 전반에 걸친 기울기 분산과 SGD 수렴 지형에 어떤 영향을 미치는가?
RQ3멀티-GPU 또는 멀티노드 시스템에서 더 큰 유효 배치 크기를 가능하게 하면서 학습 처리량을 유지하거나 개선할 수 있는가?
RQ4CIFAR-10/100 및 ImageNet 같은 표준 벤치마크와 Dropout 을 중간 증강으로 사용하는 언어 모델링에서 BA의 실험적 효과는 어떠한가?

주요 결과

Batch Size	Throughput [images/sec]	Standard Deviation
1	29.9	0.07
2	53.9	0.71
4	87.8	0.31
8	126.9	0.48
16	172.5	0.29
32	210.1	2.40
64	234.4	0.12
128	247.9	0.12

BA 는 여러 모델/데이터셋에서 최종 검증 정확도를 향상시키는 경향이 있다(예: CIFAR-10/100, ImageNet, PTB)Baseline과 비교해.
BA 는 에포크당 수렴을 가속화하여 더 적은 반복(에포크)으로 더 높은 정확도를 달성한다.
CIFAR-10 의 ResNet44 와 Cutout 실험에서 M 이 40 에 이르면 Baseline 대비 눈에 띄는 정확도 상승을 보였다(예: ResNet44: 93.07% → 93.78% with M=40; Cutout: 93.7% → 95.43% with M=40).
ImageNet 실험은 ResNet50, MobileNet, 그리고 AlexNet 의 최종 검증 정확도를 향상시키는 경향을 보여주며, AlexNet 의 경우 절대 검증 정확도에서 4 포인트 이상 향상되었다.
BA 는 학습을 위한 대형 유효 배치 크기로의 확장을 가능하게 하며(예: 2,560), LR 스케줄 조정이 필요 없고 실행 시간 영향도 최소화한다.
BA 는 학습 중 기울기 분산을 줄여 기울기 노름이 작아지고 업데이트가 더 안정적으로 이루어지는 모습을 보인다(L2 노름 감소).
언어 모델링(PTB) 에서 Dropout 기반 중간 증강을 도입한 BA 는 Baseline 대비 perplexity 가 소폭 개선되었다(0.2 포인트).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.