QUICK REVIEW

[論文レビュー] AdaBatch: Adaptive Batch Sizes for Training Deep Neural Networks

Aditya Devarakonda, Maxim Naumov|arXiv (Cornell University)|Dec 6, 2017

Advanced Neural Network Applications参考文献 19被引用数 105

ひとこと要約

AdaBatchは学習中にバッチサイズを適応的に増やして、小バッチの収束利点を保ちながら大バッチの効率を得る方法を提示します。マルチGPU環境で最小限の精度低下にとどめつつ、最大6.25倍のスピードアップを示します。

ABSTRACT

Training deep neural networks with Stochastic Gradient Descent, or its variants, requires careful choice of both learning rate and batch size. While smaller batch sizes generally converge in fewer training epochs, larger batch sizes offer more parallelism and hence better computational efficiency. We have developed a new training approach that, rather than statically choosing a single batch size for all epochs, adaptively increases the batch size during the training process. Our method delivers the convergence rate of small batch sizes while achieving performance similar to large batch sizes. We analyse our approach using the standard AlexNet, ResNet, and VGG networks operating on the popular CIFAR-10, CIFAR-100, and ImageNet datasets. Our results demonstrate that learning with adaptive batch sizes can improve performance by factors of up to 6.25 on 4 NVIDIA Tesla P100 GPUs while changing accuracy by less than 1% relative to training with fixed batch sizes.

研究の動機と目的

SGDベースの訓練における小さなバッチと大きなバッチのトレードオフに対処する。
訓練中にバッチサイズを成長させる動的なバッチサイズスキームを提案する。
適応的バッチ設定が精度を保ちながら実行時効率を向上させることを示す。
既存の大バッチ手法と学習率スケジュールとの互換性を示す。
標準的なCNNアーキテクチャとデータセット（AlexNet、VGG、ResNet；CIFAR-10/100、ImageNet）で評価する。

提案手法

小さなバッチサイズで訓練を開始し、定義された間隔で順次増加させる。
学習率も同時に適応させ、比率 alpha/r を一定に保つ。
バッチサイズを間隔ごとに倍増させ、バッチ成長を有効学習率の減衰に関連づける。
バッチ成長とともに1エポックあたりの総FLOPが概ね一定に保たれることを示すために各エポックの計算を分析する。
CIFARおよびImageNetで適応的バッチと固定バッチの比較を実証的に行う。
AdaBatchを既存の大バッチ訓練技術と組み合わせて追加的なスピードアップを評価する。

実験結果

リサーチクエスチョン

RQ1適応的バッチ設定は、小さなバッチ訓練の収束性と精度を維持しつつ、大バッチ訓練の計算効率を提供できるか？
RQ2CNN訓練における訓練中のバッチサイズの漸進的増加は学習率スケジュールとどう相互作用するか？
RQ3複数GPU環境で適応的バッチサイズを適用した場合の実用的な性能向上とスケーラビリティの利点は何か？
RQ4AdaBatchを既存の大バッチ戦略とどの程度統合でき、テスト誤差を増やすことなく訓練をさらに高速化できるか？

主な発見

Network	Batch Size	Forward Time (speedup)	Backward Time (speedup)
VGG19 BN	128	933.79 sec. (1×)	1571.35 sec. (1×)
VGG19 BN	128-2048	707.13 sec. (1.32×)	1322.59 sec. (1.19×)
ResNet-20	128	256.59 sec. (1×)	661.35 sec. (1×)
ResNet-20	128-2048	218.97 sec. (1.17×)	578.63 sec. (1.14×)
AlexNet	256	66.24 sec. (1×)	129.39 sec. (1×)
AlexNet	256-4096	44.34 sec. (1.49×)	89.69 sec. (1.44×)

適応的なバッチサイズは、試験したネットワークとデータセット全体で最小の固定バッチサイズとほぼ同等のテスト精度を達成する。
CIFAR-100でVGG19とResNet-20を用いた場合、適応的バッチはVGG19で最大3.54×、ResNet-20で最大6.25×のスピードアップを達成し、テスト誤差の差は2%未満。
CIFAR-10/100の実験では、適応的バッチがしばしば最大の固定バッチサイズよりテスト精度が高く、ウォールクロック時間を短縮する。
ImageNetの実験では、AdaBatchは開始バッチサイズと増加係数に依存するが、最終的な大きなバッチサイズ（設定によっては最大524,288）に到達しても最終的なテスト誤差を大幅に変えずに済む。
表1は、CIFAR-100で適応 vs 固定バッチサイズの前向き・後向きパスの1エポックあたりのスピードアップを定量化し、ネットワーク間で時間が改善されていることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。