QUICK REVIEW

[논문 리뷰] Accelerating Deep Learning by Focusing on the Biggest Losers

Angela H. Jiang, Daniel Wong|arXiv (Cornell University)|2019. 10. 02.

Advanced Neural Network Applications참고 문헌 27인용 수 36

한 줄 요약

Selective-Backprop는 손실이 큰 학습 샘플을 우선시해 비싼 역전파를 건너뛰고 딥 러닝을 가속화합니다; Stale-SB는 선택 오버헤드를 추가로 줄여 표준 SGD에 비해 최대 3.5배 빠른 학습을 달성합니다.

ABSTRACT

This paper introduces Selective-Backprop, a technique that accelerates the training of deep neural networks (DNNs) by prioritizing examples with high loss at each iteration. Selective-Backprop uses the output of a training example's forward pass to decide whether to use that example to compute gradients and update parameters, or to skip immediately to the next example. By reducing the number of computationally-expensive backpropagation steps performed, Selective-Backprop accelerates training. Evaluation on CIFAR10, CIFAR100, and SVHN, across a variety of modern image models, shows that Selective-Backprop converges to target error rates up to 3.5x faster than with standard SGD and between 1.02--1.8x faster than a state-of-the-art importance sampling approach. Further acceleration of 26% can be achieved by using stale forward pass results for selection, thus also skipping forward passes of low priority examples.

연구 동기 및 목표

모든 샘플을 동일하게 다루기보다 정보성이 높은(어려운) 예제에 집중하여 DNN 학습을 가속해야 할 필요성을 제시한다.
정확도를 저하시키지 않으면서 역전파 작업을 줄이기 위한 경량의 손실 기반 샘플링 기법을 제안한다.
다양한 데이터셋과 아키텍처에 걸쳐 접근법을 평가하여 속도 증가와 강건성을 정량화한다.

제안 방법

정방향 패스의 손실을 그래디언트 기여도의 대리 proxi로 사용해 예제를 역전파에 포함할지 결정하는 Selective-Backprop(SB)를 도입한다.
현재 손실 분위수(CDF 기반)의 단조 함수로 선택 확률 P(L)을 계산해 샘플링을 손실이 큰 예제로 편향시킨다.
P(L)를 계산할 때 최근 손실의 실행 창을 사용해 현재 손실 분포를 근사한다.
Forward-pass 비용을 줄이기 위해 이전 선택 패스의 손실을 재사용하는 Stale-SB를 선택적으로 적용한다(매 n번째 에폭마다).
손실 재사용 및 forward-pass 가속 아이디어와 같은 선택 오버헤드를 줄이기 위한 선택적 최적화를 제공한다.
SB는 하이퍼파라미터를 변경하지 않고 표준 SGD 및 Adam, RMSprop 등 변형들과 함께 작동하도록 설계되었다.

실험 결과

연구 질문

RQ1선별적 역전파가 최종 모델 성능에 크게 해를 끼치지 않으면서 목표 정확도까지 학습 시간을 줄일 수 있는가?
RQ2SB가 최첨단 온라인 중요도 샘플링과 속도 증가 및 최종 정확도 측면에서 어떻게 비교되는가?
RQ3Stale-SB를 이용한 이전 forward-pass 결과 활용이 학습 효율성과 정확도에 미치는 영향은 무엇인가?
RQ4일반적인 이미지 분류 벤치마크에서 라벨 노이즈 및 데이터셋 중복성에 대해 SB가 얼마나 강건한가?
RQ5데이터셋과 모델에 걸친 SB의 실용적 배포 고려사항과 파레토 최적 구성이 무엇인가?

주요 결과

Dataset	Strategy	Final error of Traditional	Speedup to final error ×1.1	Speedup to final error ×1.2	Speedup to final error ×1.4
CIFAR10	SB	2.96%	1.4x	1.2x	1.5x
CIFAR10	Stale-SB	2.96%	–	1.5x	2.0x
CIFAR10	Kath18	2.96%	1.4x	1.1x	1.3x
CIFAR100	SB	18.21%	1.2x	1.2x	1.2x
CIFAR100	Stale-SB	18.21%	1.5x	1.0x	1.6x
CIFAR100	Kath18	18.21%	1.1x	0.8x	0.8x
SVHN	SB	1.72%	3.4x	3.4x	3.5x
SVHN	Stale-SB	1.72%	4.3x	4.9x	5.0x
SVHN	Kath18	1.72%	1.9x	2.8x	3.4x

SB는 손실이 낮은 예제를 건너뛰어 역전파 계산을 줄이고 CIFAR10/100 및 SVHN에서 여러 모델에 걸쳐 목표 오차까지 최대 3.5배의 속도 향상을 달성한다.
Stale-SB는 여러 에포크에 걸쳐 forward-pass 손실을 재사용해 약 26%의 추가 속도향상을 최소한의 정확도 손실로 얻는다.
SB는 일반적으로 최신 온라인 중요도 샘플링 방법(Katharopoulos & Fleuret 2018)보다 목표 정확도에 도달하는 속도에서 1.02–1.8배 더 우수하다.
파레토 최적 구성 전반에서 SB와 Stale-SB가 최적 트레이드오프의 큰 비중을 차지하며, SB는 CIFAR10, CIFAR100, SVHN에서 종종 최적의 속도-정확도 균형을 제공한다.
SB는 소규모 라벨 노이즈에 강건하며 깨끗한 데이터셋에서 학습 속도를 높일 수 있다; 선택성이 높아지면 속도는 증가하지만 최종 오차가 커질 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.