[論文レビュー] Learned Optimizers that Scale and Generalize
論文は階層的RNNベースの学習済み最適化手法を提示し、新しいタスクへ一般化し、より大規模な問題へスケールし、ADAM/RMSPropと競争力のある性能を達成し、初期反復でImageNet規模のトレーニングへ拡張する。
Learning to learn has emerged as an important direction for achieving artificial intelligence. Two of the primary barriers to its adoption are an inability to scale to larger problems and a limited ability to generalize to new tasks. We introduce a learned gradient descent optimizer that generalizes well to new tasks, and which has significantly reduced memory and computation overhead. We achieve this by introducing a novel hierarchical RNN architecture, with minimal per-parameter overhead, augmented with additional architectural features that mirror the known structure of optimization tasks. We also develop a meta-training ensemble of small, diverse optimization tasks capturing common properties of loss landscapes. The optimizer learns to outperform RMSProp/ADAM on problems in this corpus. More importantly, it performs comparably or better when applied to small convolutional neural networks, despite seeing no neural networks in its meta-training set. Finally, it generalizes to train Inception V3 and ResNet V2 architectures on the ImageNet dataset for thousands of steps, optimization problems that are of a vastly different scale than those it was trained on. We release an open source implementation of the meta-training algorithm.
研究の動機と目的
- 未見のタスクやアーキテクチャへ一般化できる学習済み勾配降下最適化手法を示す。
- 大規模な問題へスケールできるようにメモリと計算オーバーヘッドを削減する。
- 最適化に着想を得た特徴(注意機構、マルチタイムスケールのモーメント、動的入力スケーリング)を学習可能な更新規則に組み込む。
- 共通の損失ランドスケープ特性を捉える多様なメタトレーニングのアンサンブルを開発する。
- このオプティマイザが初期の学習ステップでより大きなモデル(ImageNet規模)を訓練できることを示す。
提案手法
- パラメーターごと(Parameter RNN)、テンソルレベル(Tensor RNN)、グローバル(Global RNN)という構成を持つ階層型RNNオプティマイザを導入する。
- 最適化に動機づけられた特徴を組み込む:注意に基づく外挿、マルチタイムスケールのモーメント、動的入力スケーリング、分解された更新長。
- スケーリングされた勾配、モーメント指標、相対学習率信号など、勾配ベースの入力をRNNの入力として使用する。
- 学習可能なアファイン読み出しを介して、パラメーターこ と・テンソルごとの更新と学習率ログの調整を出力する。
- 訓練ステップの分布が裾野の長いカレンダー schedule の小さく多様な最適化タスクの厳選済みアンサンブルでオプティマイザをメタ訓練する。
- 平均対数損失に基づくメタ目的関数を用いて、精密な収束と学習率適応を促す。
実験結果
リサーチクエスチョン
- RQ1学習済みオプティマイザは、メタ訓練中に見られなかったニューラルアーキテクチャや問題クラスに一般化できるか。
- RQ2メモリと計算オーバーヘッドをいかに削減して、より大規模な最適化問題へスケールさせるか。
- RQ3最適化に基づくアーキテクチャ的特徴は、タスク間で学習済みオプティマイザの一般化を助けるか。
- RQ4多様な小規模タスクのメタ訓練は、より大きなネットワークやデータセット(例:ImageNet)で頑健な性能を生むか。
主な発見
- 階層型RNNオプティマイザは、メタ訓練集合の問題においてRMSProp/ADAMと競争力のある性能を達成する。
- メタ訓練に含まれていない小さなConvNetや全結合ネットに一般化し、同等かそれ以上の性能を示す。
- ImageNetの初期ステップでInception V3およびResNet V2の訓練を安定化させることができるが、訓練の後半では進捗が遅くなる場合がある。
- Parameter RNNを小さく保つとメモリと計算オーバーヘッドのスケーリングが有利になり、より大規模な利用が可能になる。
- 初期学習率の選択に対して性能が頑健であり、アブレーションは主要な特徴(注意、マルチタイムスケールモーメント、スケーリング、相対学習率)の重要性を示している。
- minibatchサイズが大きくなるにつれて学習済みオプティマイザの実時間コストは標準オプティマイザに近づく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。