QUICK REVIEW

[논문 리뷰] Not All Samples Are Created Equal: Deep Learning with Importance Sampling

Angelos Katharopoulos, François Fleuret|arXiv (Cornell University)|2018. 03. 02.

Machine Learning and Data Classification인용 수 107

한 줄 요약

이 논문은 깊은 신경망에서 SGD에 대해 원칙적인 중요도 샘플링 기법을 제시하며, per-sample gradient norms에 대해 효율적으로 계산 가능한 상한을 사용해 정보가 풍부한 샘플에 계산을 집중합니다, CNN, RNN, 및 미세조정 작업 전반에서 분산 감소 및 wall-clock 속도 향상을 달성합니다.

ABSTRACT

Deep neural network training spends most of the computation on examples that are properly handled, and could be ignored. We propose to mitigate this phenomenon with a principled importance sampling scheme that focuses computation on "informative" examples, and reduces the variance of the stochastic gradients during training. Our contribution is twofold: first, we derive a tractable upper bound to the per-sample gradient norm, and second we derive an estimator of the variance reduction achieved with importance sampling, which enables us to switch it on when it will result in an actual speedup. The resulting scheme can be used by changing a few lines of code in a standard SGD procedure, and we demonstrate experimentally, on image classification, CNN fine-tuning, and RNN training, that for a fixed wall-clock time budget, it provides a reduction of the train losses of up to an order of magnitude and a relative improvement of test errors between 5% and 17%.

연구 동기 및 목표

깊은 네트워크에서 SGD의 균등 샘플링의 비효율성을 동기화하고, 정보가 풍부한 샘플에 집중하여 학습 속도를 높이는 것을 목표로 한다.
단일 전방패스에서 계산할 수 있는 per-sample gradient norm의 실현 가능한 상한을 유도한다.
중요도 샘플링으로 인한 분산 감소를 정량화하고 이득이 있을 때만 IS를 켜는 기준을 확립한다.
속도향상을 실현하기 위해 표준 SGD 학습에 쉽게 플러그인할 수 있는 간단하고 일반적인 알고리즘을 제공한다.
이미지 분류, 미세조정 및 시퀀스 분류 과제에서 실증적으로 접근법을 검증한다.

제안 방법

Forward pass에서 계산 가능한 per-sample gradient norm의 상한 at{G}_{i}를 유도한다(식 13–20).
2단계 샘플링 체계를 제안한다: 큰 배치 B를 먼저 샘플링하고, hat{G}_{i}에 비례하는 분포를 계산한 다음, 그 분포에서 작은 배치 b를 샘플링한다.
IS를 정당화하는 수익성 테스트를 형식화하여 분산 감소가 IS를 정당화하는지 판단하며, 식 27에서 도출된 tau의 등가 배치 크기 증가를 사용한다.
임계값 tau_th와 tau의 지수 이동 평균을 기반으로 균등 샘플링과 중요도 샘플링 간 전환하는 알고리즘 1을 제시한다.
분산 감소를 위한 최적 샘플링은 per-sample gradient norm에 비례한다는 것을 보이되, 실용적 구현을 가능하게 하는 실현 가능한 한계를 사용한다.

실험 결과

연구 질문

RQ1깊은 네트워크에서 중요도 샘플링을 안내하기 위해 per-sample gradient norms의 실현 가능한 상한을 효율적으로 계산할 수 있는가?
RQ2이 상한을 기반으로 하는 중요도 샘플링이 CNNs, RNNs, 및 미세조정 시나리오에서 고정된 wall-clock 예산 하에 그래디언트 분산을 줄이고 학습을 가속화하는가?
RQ3훈련 중 언제 중요도 샘플링을 켜는 것이 유익한지, 그리고 이를 어떻게 신뢰성 있게 감지할 수 있는가?
RQ4동일 시간 예산에서 제안된 IS 체계가 손실 기반 샘플링 및 균등 샘플링과 비교하여 훈련 손실과 테스트 오차 측면에서 어떤 차이가 있는가?
RQ5실용적 지침(예: 사전 샘플 크기 B, 작은 배치 b, 임계 tau_th)이 아키텍처 전반에 걸쳐 견고한 속도향상을 어떻게 이끌어내는가?

주요 결과

상한 기반 IS는 기울기 노름 기반 샘플링과 거의 일치하는 분산 감소를 나타내며, 실제 per-sample gradient norms와 높은 상관관계를 보인다.
CIFAR10/CIFAR100에서 본 방법은 wall-clock 속도향상을 달성하고, 경우에 따라 균등 또는 손실 기반 샘플링에 비해 더 낮은 훈련 손실과 개선된 테스트 오차를 보인다(예: CIFAR100은 더 빠른 수렴과 테스트 오차의 5%–? 개선)를
미세조정에서 본 방법은 수렴을 가속하고 테스트 오차를 균등 샘플링에 비해 반나절 이내에 감소시킨다(예: MIT67 데이터셋 결과).
LSTM을 사용한 픽셀 단위 MNIST에서는 고정 시간 예산 내에 더 낮은 훈련 손실과 더 나은 테스트 오차를 얻고, 손실 기반 샘플링은 성능을 저하시킬 수 있다.
이 알고리즘은 표준 SGD 워크플로우에서 중요도 샘플링을 가능하게 하려면 단 한 줄의 코드 대체만 필요하도록 설계되었으며, 학습 중 모델 매개변수의 변화에 적응한다.
분산 감소는 배치 크기를 실질적으로 늘리는 것으로 해석될 수 있으며, 속도를 보장하는 계산 가능한 기준(tau)을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.