QUICK REVIEW

[論文レビュー] Biased Importance Sampling for Deep Neural Network Training

Angelos Katharopoulos, François Fleuret|arXiv (Cornell University)|May 31, 2017

Advanced Neural Network Applications参考文献 18被引用数 48

ひとこと要約

この論文は、計算コストを低減するための軽量な補助ネットワークを用いて損失値を近似することで、損失値を重要度指標として用いるバイアス付き重要度サンプリング手法を提案する。この手法は、一様サンプリングと比較して学習を20–30%高速化し、一般化性能を向上させ、特にCIFAR10とPenn TreebankにおけるCNNおよびRNNにおいて、より低い分散で収束を達成する。

ABSTRACT

Importance sampling has been successfully used to accelerate stochastic optimization in many convex problems. However, the lack of an efficient way to calculate the importance still hinders its application to Deep Learning. In this paper, we show that the loss value can be used as an alternative importance metric, and propose a way to efficiently approximate it for a deep model, using a small model trained for that purpose in parallel. This method allows in particular to utilize a biased gradient estimate that implicitly optimizes a soft max-loss, and leads to better generalization performance. While such method suffers from a prohibitively high variance of the gradient estimate when using a standard stochastic optimizer, we show that when it is combined with our sampling mechanism, it results in a reliable procedure. We showcase the generality of our method by testing it on both image classification and language modeling tasks using deep convolutional and recurrent neural networks. In particular, our method results in 30% faster training of a CNN for CIFAR10 than when using uniform sampling.

研究の動機と目的

大規模データセットにおける深層ニューラルネットワーク学習の高い計算コストに対処すること。
深層学習における正確な重要度重み（例：勾配ノルム）の計算が困難であるという問題を克服すること。
学習収束性と一般化性能を向上させる、スケーラブルで低オーバーヘッドな重要度サンプリング方式を開発すること。
標準的なサンプリングを超える計算オーバーヘッドを増加させることなく、勾配の分散を低減し、学習を高速化すること。
CNNやRNNを含む多様なアーキテクチャおよび画像分類や言語モデリングなどのタスクに一般化可能な手法を実現すること。

提案手法

重要度を損失値で代替する手法を採用し、一様サンプリングと比較して勾配の分散を低減するサンプリング分布を構築する。
主モデルとは並列に学習される小さな補助ネットワークを用い、各学習サンプルの損失を予測することで、重要度重みの効率的な近似を実現する。
重要度サンプリング方式をバイアス付き勾配推定器として実装し、ソフトマックス損失を暗黙的に最小化することで、より良い一般化性能を促進する。
重要度推定の安定化を図るため、オンラインでスムージング機構を用いてサンプリング分布を更新する。
勾配ノルムに基づくサンプリングを損失に基づく近似に置き換えることで、高コストな2次微分計算を回避する。
Adamなどの標準的な最適化手法と互換性があり、既存の学習パイプラインにスムーズに統合可能である。

実験結果

リサーチクエスチョン

RQ1損失値は、深層学習における重要度サンプリングの有効で計算的に実行可能な代理指標として機能するか？
RQ2軽量な補助ネットワークは、最小限の計算オーバーヘッドで大規模な深層モデルの損失を正確に近似できるか？
RQ3損失に基づく重要度サンプリングは、実際の学習において勾配の分散を低減し、収束を高速化するか？
RQ4この手法は、過学習を増加させることなく、一般化性能を向上させることができるか？
RQ5この手法は、CNNやRNNを含むさまざまなアーキテクチャおよびデータセットにおいて、スケーリング可能か？

主な発見

CIFAR10におけるCNNでは、一様サンプリングと比較して30%の高速化が達成された。
Penn Treebankの言語モデリングタスクでは、1エポックあたりの処理時間を10%増加させるものの、合計学習時間を20%（約2時間）短縮した。
大規模な深層モデルの損失を近似するための軽量な補助ネットワークの使用により、学習時間を20%削減し、一般化性能を維持または向上させた。
MNISTでは5エポック目でテスト誤差が0.2%低下し、CIFAR10では30エポック目で約1%低下した。
スムージングパラメータk=0.5の設定では、ノイズの多い重要度推定に対してもロバストで、ハイパーパramータのチューニングが少なく済む。
勾配ノルムや任意のハイパーパramータに依存する先行手法よりも優れており、特にPenn Treebankのような複雑なデータセットにおいて顕著な優位性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。