QUICK REVIEW

[論文レビュー] Accelerating Deep Learning by Focusing on the Biggest Losers

Angela H. Jiang, Daniel Wong|arXiv (Cornell University)|Oct 2, 2019

Advanced Neural Network Applications参考文献 27被引用数 36

ひとこと要約

Selective-Backpropは高損失の訓練例を優先してコストの高いバックプロパゲーションをスキップし、深層学習を高速化する。Stale-SBは選択のオーバーヘッドをさらに削減し、標準SGDと比較して最大3.5xの訓練速度向上を実現する。

ABSTRACT

This paper introduces Selective-Backprop, a technique that accelerates the training of deep neural networks (DNNs) by prioritizing examples with high loss at each iteration. Selective-Backprop uses the output of a training example's forward pass to decide whether to use that example to compute gradients and update parameters, or to skip immediately to the next example. By reducing the number of computationally-expensive backpropagation steps performed, Selective-Backprop accelerates training. Evaluation on CIFAR10, CIFAR100, and SVHN, across a variety of modern image models, shows that Selective-Backprop converges to target error rates up to 3.5x faster than with standard SGD and between 1.02--1.8x faster than a state-of-the-art importance sampling approach. Further acceleration of 26% can be achieved by using stale forward pass results for selection, thus also skipping forward passes of low priority examples.

研究の動機と目的

すべてのサンプルを同じように扱うのではなく、有益（難易度が高い）例に焦点を当ててDNN訓練を加速する必要性を動機づける。
精度を損なうことなくバックプロパゲーションの作業を削減するための、軽量な損失ベースのサンプリング手法を提案する。
複数のデータセットとアーキテクチャで手法を評価し、速度向上と頑健性を定量化する。

提案手法

前方パスの損失を勾配寄与の代理指標として用い、 backward pass に含めるかを決定する Selective-Backprop (SB) を導入する。
現在の損失パーセンタイル（CDFベース）に単調関数として P(L) を計算し、高損失の例へサンプリングを偏らせる。
P(L) を計算する際、最近の損失のランニングウィンドウを用いて現在の損失分布を近似する。
前回の選択パスの損失を再利用する Stale-SB を任意で用い、前向きパスのコストを低減する（n番目のエポックごとに再利用）。
損失再利用や前方伝播の高速化アイデアなど、選択オーバーヘッドを減らすオプション最適化を提供する。
SBはハイパーパラメータを変更せず、標準のSGDおよび派生（Adam、RMSprop など）と共に機能するよう設計されている。

実験結果

リサーチクエスチョン

RQ1Selective Backpropagationは最終的なモデル性能を大きく損なうことなく訓練時間を目標 Accuracyへ短縮できるか？
RQ2SBは最新のオンライン重要度サンプリングと比べて速度向上と最終的な精度にどのような差があるか？
RQ3Stale-SBを活用した場合の訓練効率と精度への影響はどうなるか？
RQ4SBはラベルノイズやデータセットの冗長性に対して共通の画像分類ベンチマークでどれくらい頑健か？
RQ5データセットとモデル間でSBを実用的に展開する際のパレート最適構成と考慮事項は何か？

主な発見

Dataset	Strategy	Final error of Traditional	Speedup to final error ×1.1	Speedup to final error ×1.2	Speedup to final error ×1.4
CIFAR10	SB	2.96%	1.4x	1.2x	1.5x
CIFAR10	Stale-SB	2.96%	–	1.5x	2.0x
CIFAR10	Kath18	2.96%	1.4x	1.1x	1.3x
CIFAR100	SB	18.21%	1.2x	1.2x	1.2x
CIFAR100	Stale-SB	18.21%	1.5x	1.0x	1.6x
CIFAR100	Kath18	18.21%	1.1x	0.8x	0.8x
SVHN	SB	1.72%	3.4x	3.4x	3.5x
SVHN	Stale-SB	1.72%	4.3x	4.9x	5.0x
SVHN	Kath18	1.72%	1.9x	2.8x	3.4x

SBは低損失の訓練例をスキップすることで後方伝播の計算を削減し、CIFAR10/100およびSVHNで複数モデルにおいてターゲット誤差までのスピードアップを最大3.5x達成。
Stale-SBは前方パスの損失を複数エポックで再利用することで、およそ26%の追加スピードアップを、最小限の精度低下とともに実現。
SBは一般に最先端のオンライン重要度サンプリング手法（Katharopoulos & Fleuret 2018）よりも、ターゲット精度到達まで1.02–1.8xの優位性を示す。
パレート最適構成全体では、SBとStale-SBが最適なトレードオフの大部分を占め、SBはCIFAR10、CIFAR100、SVHNで最良の速度-精度バランスを提供することが多い。
SBは軽度のラベルノイズに対して頑健で、クリーンなデータセットの学習を加速できる；選択性が高いほど速度は上がるが最終誤差が増加する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。