QUICK REVIEW

[論文レビュー] Stochastic Hyperparameter Optimization through Hypernetworks

Jonathan Lorraine, David Duvenaud|arXiv (Cornell University)|Feb 26, 2018

Machine Learning and Data Classification参考文献 17被引用数 87

ひとこと要約

本論文は、ハイパーネットワークを学習させ、ハイパーパラメータをほぼ最適な重みに写像することで、重みとハイパーパラメータの共同確率的最適化を可能にし、各ハイパーパラメータ集合ごとに最初から再訓練する必要を避ける方法を提案する。

ABSTRACT

Machine learning models are often tuned by nesting optimization of model weights inside the optimization of hyperparameters. We give a method to collapse this nested optimization into joint stochastic optimization of weights and hyperparameters. Our process trains a neural network to output approximately optimal weights as a function of hyperparameters. We show that our technique converges to locally optimal weights and hyperparameters for sufficiently large hypernetworks. We compare this method to standard hyperparameter optimization strategies and demonstrate its effectiveness for tuning thousands of hyperparameters.

研究の動機と目的

ハイパーパラメータ調整をネストされた最適化問題として動機づけ、重みとハイパーパラメータの微分可能で共同最適化に縮約する。
ハイパーパラメータを与えるとほぼ最適な重みを出力するハイパーネットワークを導入し、効率的なハイパーパラメータ最適化を実現する。
大規模なハイパーパラメータ空間にわたって、重みとハイパーパラメータを共同訓練する際の収束性と実用的な実現可能性を示す。
ハイパーネットワークベースの最適化を標準的なハイパーパラメータ戦略と比較し、数千のハイパーパラメータでの有効性を示す。

提案手法

ハイパーパラメータを入力として受け取り、ほぼ最適な重み wφ(λ) を出力するニューラルネットワーク（ハイパーネットワーク）を訓練する。
訓練損失を用いて連鎖法則でハイパーネットワークのパラメータ φ を更新する： ∂LTrain(wφ)/∂wφ · ∂wφ/∂φ。
任意で、検証損失をハイパーネットワークを介して微分することにより λ を最適化する： ∂LValid(wφ(λ))/∂wφ(λ) · ∂wφ(λ)/∂λ。
確率的勾配を用いて φ と λ を同時に更新するジョイント最適化（Algorithm 3）を提案する。
線形ハイパーネットワークと局所ベストレスポンス近似（Algorithm 4）を用いた拡張可能なバリアントを議論する。
ベイズ最適化とアンローリング最適化と比較し、数千のハイパーパラメータに拡張する際の利点を強調する。

Figure 2: The validation loss of a neural net, estimated by cross-validation (crosses) or by a hypernetwork (line), which outputs $7,850$ -dimensional network weights. Cross-validation requires optimizing from scratch each time. The hypernetwork can be used to evaluate the validation loss cheaply.

実験結果

リサーチクエスチョン

RQ1ハイパーネットワークは、ハイパーパラメータを最適な重みへ写像する連続的なベストレスポンス w*(λ) を学習できるか？
RQ2穏当な仮定の下で、ハイパーネットワークの重みとハイパーパラメータのジョイント最適化は局所解へ収束するか？
RQ3高次元のハイパーパラメータ空間において、ハイパーネットワークによる勾配ベースの最適化は従来のハイパーパラメータ手法よりスケーラブルか？
RQ4効率と性能の観点から、ハイパー訓練はアンローリング最適化とベイズ最適化とどう比較されるか？
RQ5数千のハイパーパラメータへ拡張するための実践的戦略（例：線形ハイパーネットワーク、局所分布 p(λ|λ̂)）は何か？

主な発見

ハイパーネットワークはベストレスポンス関数を近似でき、小さな問題では検証性能を真の最適解に近づける。
局所的に訓練された単純なハイパーネットワークを用いたジョイント最適化（Algorithm 3）は、大規模なハイパーパラメータ設定でアンローリング最適化より収束が速い。
数千のハイパーパラメータを伴うハイパー訓練は、収束速度とスケーラビリティの点で標準的な勾配法以外の方法を上回る。
深いネットワークもハイパー訓練で最適化でき、レイヤ数が増えても検証性能を維持または改善する。
局所的なベストレスポンスには線形または因子化されたハイパーネットワークで十分となり、パラメータ負担を削減しつつ勾配ベースのハイパーパラメータ更新を可能にする。

Figure 3: A visualization of exact (blue) and approximate (red) optimal weights as a function of hyperparameters. The approximately optimal weights $\mathrm{w}_{\phi^{*}}$ are output by a linear model fit at $\smash{\hat{\lambda}}$ . The true optimal hyperparameter is $\lambda^{*}$ , while the hyper

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。