[論文レビュー] Neural Optimizer Search with Reinforcement Learning
本研究は、DSL から更新式を生成するリカレントニューラルネットワーク(RNN)コントローラを訓練して最適化更新式を自動発見し、PPO ベースの強化学習でそれらを最適化し、タスク間での転用性を示す。
We present an approach to automate the process of discovering optimization methods, with a focus on deep learning architectures. We train a Recurrent Neural Network controller to generate a string in a domain specific language that describes a mathematical update equation based on a list of primitive functions, such as the gradient, running average of the gradient, etc. The controller is trained with Reinforcement Learning to maximize the performance of a model after a few epochs. On CIFAR-10, our method discovers several update rules that are better than many commonly used optimizers, such as Adam, RMSProp, or SGD with and without Momentum on a ConvNet model. We introduce two new optimizers, named PowerSign and AddSign, which we show transfer well and improve training on a variety of different tasks and architectures, including ImageNet classification and Google's neural machine translation system.
研究の動機と目的
- 深層学習の最適化更新規則の設計を動機づけ、これを自動化する。
- 更新規則をドメイン固有言語(DSL)で表現し、柔軟な組み合わせを可能にする。
- 検証性能に基づいて更新規則を最適化するために強化学習を用いる。
- 発見された最適化手法のアーキテクチャ間およびタスク間での転移性を示す。
- 従来の最適化手法に対する、より高速でメモリ効率の良い代替手段を提供する。
提案手法
- 更新規則を記述する DSL の文字列を出力するリカレントニューラルネットワーク(RNN)コントローラを訓練する。
- サンプリングされた規則で訓練されたターゲットモデルが達成する検証精度を最大化するために PPO(近接方策最適化)を用いる。
- オペランド、単一関数、二項関数をエンコードして更新方程式を形成する DSL を構築する。
- 探索を加速するために分散トレーニング環境を適用し、評価には小さな ConvNet、シグナルとして5エポックの訓練を使用する。
- PowerSign や AddSign のような得られた更新規則と、linear cosine decay と呼ばれる学習率減衰方式を同定・分析する。
実験結果
リサーチクエスチョン
- RQ1RL ベースのコントローラはニューラルネットワークの効果的な更新規則を自動的に発見できるか?
- RQ2発見された更新規則はより大規模なモデルや異なるタスクへ効果的に転移するか?
- RQ3探索からどのような新しい更新規則と学習率スケジュールが生まれ、それらは SGD、Momentum、RMSProp、Adam とどう比較されるか?
主な発見
- コントローラは CIFAR-10 の小さな ConvNet に対して、Momentum の有無にかかわらず Adam、RMSProp、 SGD を上回る可能性のある更新規則を発見する。
- 主に2つのファミリ、PowerSign と AddSign が効果的な更新規則として現れ、CIFAR-10 の Wide ResNet、ImageNet、GNMT、PTB 言語モデルを含むより大きなタスクへと転移し、異なる利得を示す。
- 線形コサイン減衰(およびその派生)はしばしば収束を速め、より大きな初期学習率を許容する。
- 発見された規則は PowerSign がパラメータごとに1つのランニングアベレージを使用するため、Adam よりもメモリ効率が良い場合がある。
- この手法は ImageNet の top-1/top-5 および GNMT BLEU の測定可能な改善をもたらす、これらのパイプラインで標準の最適化手法を置換した場合。
- 学習された規則はパラメータの過不足での変動にも堅牢で、特定の設定では SGD に向けて補間できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。