QUICK REVIEW

[論文レビュー] Online Batch Selection for Faster Training of Neural Networks

Ilya Loshchilov, Frank Hutter|arXiv (Cornell University)|Nov 19, 2015

Stochastic Gradient Optimization Techniques参考文献 32被引用数 171

ひとこと要約

本稿では、最近の損失が大きいサンプルをランク付けし、指数関数的に減少する確率でサンプリングすることで、より高い最近の損失を持つトレーニングサンプルを優先するオンラインバッチ選択戦略を提案する。MNISTにおける実験では、AdamおよびAdaDelta最適化手法の両方で収束が約5倍速くなり、最適化アルゴリズム自体を変更せずにトレーニング速度を顕著に向上させた。

ABSTRACT

Deep neural networks are commonly trained using stochastic non-convex optimization procedures, which are driven by gradient information estimated on fractions (batches) of the dataset. While it is commonly accepted that batch size is an important parameter for offline tuning, the benefits of online selection of batches remain poorly understood. We investigate online batch selection strategies for two state-of-the-art methods of stochastic gradient-based optimization, AdaDelta and Adam. As the loss function to be minimized for the whole dataset is an aggregation of loss functions of individual datapoints, intuitively, datapoints with the greatest loss should be considered (selected in a batch) more frequently. However, the limitations of this intuition and the proper control of the selection pressure over time are open questions. We propose a simple strategy where all datapoints are ranked w.r.t. their latest known loss value and the probability to be selected decays exponentially as a function of rank. Our experimental results on the MNIST dataset suggest that selecting batches speeds up both AdaDelta and Adam by a factor of about 5.

研究の動機と目的

固定バッチサイズの確率的最適化を超えて、オンラインでのトレーニングバッチ選択が深層ニューラルネットワークのトレーニングを加速できるかどうかを調査すること。
Adam や AdaDelta のような最先端の最適化手法の収束速度を向上させるために、まだ十分に検討されていない適応的バッチ選択の潜在的効果を明らかにすること。
個々のデータポイントのリアルタイム損失値に基づいて動的にバッチを選択するシンプルで効果的な戦略を開発・評価すること。
高損失サンプルに注目することで、モデルの性能を損なわせることなくトレーニング時間を短縮できることを示すこと。

提案手法

各トレーニングデータポイントは、最新に計算された損失値によって順位付けされ、損失値が大きいほど高い順位が与えられる。
バッチ内のデータポイントの選択確率は、その順位に応じて指数関数的に減少させ、損失が最大のサンプルを優遇する。
選択プロセスは周期的に更新され、計算コストと適応性のバランスを取るために、設定可能な頻度（r_freq）で制御される。
この手法はAdamおよびAdaDelta最適化手法に適用され、元の更新ルールは維持されるが、バッチサンプリング手順のみが変更される。
損失関数の順位を保存する変換に対して不変であるため、スケーリングに対して頑健である。
必要に応じて二分探索に基づくアプローチを用いることで、再ソートにかかるコストを回避し、オーバーヘッドを低く保つ。

実験結果

リサーチクエスチョン

RQ1リアルタイム損失値に基づくオンラインバッチ選択は、一様なランダムサンプリングと比較して、深層ニューラルネットワークのトレーニングを加速できるか？
RQ2損失の大きさに基づいて非一様にバッチを選択した場合、AdamおよびAdaDeltaの性能はどのように変化するか？
RQ3収束速度を最大化するために、損失順位の関数としての選択確率の最適な減衰スケジュールは何か？
RQ4動的バッチ選択の計算コストは、得られるトレーニングスピードアップと比較してどの程度か？
RQ5提案手法はMNISTを越えて、CIFAR-10などの他のデータセットにも一般化可能か？

主な発見

損失順位に基づくオンラインバッチ選択により、MNISTデータセットにおけるAdamおよびAdaDeltaの両方でトレーニング時間が約5倍短縮された。
この手法は、元の最適化アルゴリズムを変更せず、追加のハイパーパramータチューニングを要せず、顕著なスピードアップを達成した。
両最適化手法にわたって一貫した性能向上が得られたため、現代の適応的確率的勾配法への広範な適用可能性が示された。
特に大規模モデルでは、ソートと順位付けにかかる計算コストは全体のトレーニングコストに比べて無視できるほど低く、オーバーヘッドは顕著でない。
損失順位が時間経過とともに完全に安定している必要はなく、損失推定値のノイズに対しても有効であることが示され、ロバストネスが確認された。
CIFAR-10における予備的結果では、ランダム選択よりも優れた効果が得られたが、シャッフル手法を上回る結果までは得られず、データセット依存の行動である可能性が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。