Skip to main content
QUICK REVIEW

[論文レビュー] Graph HyperNetworks for Neural Architecture Search

Wenjun Zhang, Mengye Ren|arXiv (Cornell University)|Oct 12, 2018
Advanced Neural Network Applications参考文献 39被引用数 115
ひとこと要約

Graph HyperNetwork (GHN) は、候補の CNN のすべての重みを計算グラフから直接生成し、GHN 生成重みを用いて多数のアーキテクチャを評価することで高速 NAS を実現し、ランダムなベースラインより約 10 倍速い探索で競争力のある精度を達成する。

ABSTRACT

Neural architecture search (NAS) automatically finds the best task-specific neural network topology, outperforming many manual architecture designs. However, it can be prohibitively expensive as the search requires training thousands of different networks, while each can last for hours. In this work, we propose the Graph HyperNetwork (GHN) to amortize the search cost: given an architecture, it directly generates the weights by running inference on a graph neural network. GHNs model the topology of an architecture and therefore can predict network performance more accurately than regular hypernetworks and premature early stopping. To perform NAS, we randomly sample architectures and use the validation accuracy of networks with GHN generated weights as the surrogate search signal. GHNs are fast -- they can search nearly 10 times faster than other random search methods on CIFAR-10 and ImageNet. GHNs can be further extended to the anytime prediction setting, where they have found networks with better speed-accuracy tradeoff than the state-of-the-art manual designs.

研究の動機と目的

  • 内ループの重み最適化を取り分けて NAS の計算コストを削減することを動機づける。
  • トポロジーを捉えるためのグラフベースのアーキテクチャ表現を導入する。
  • グラフニューラルネットワークとハイパーネットワークを用いて全ての重みを予測する GHN の開発。
  • CIFAR-10 および ImageNet-mobile に対する GHN 搭載 NAS の効率性と有効性を実証する。
  • 速度-精度のトレードオフを最適化するために GHN の anytime 予測へ拡張する。

提案手法

  • ノードが重みを持つ演算子である計算グラフとしてニューラルアーキテクチャをエンコードする。
  • グラフニューラルネットワークを用いてトポロジーを要約するノード埋め込みを生成する。
  • 共有ハイパーネットワークを適用してノード埋め込みをすべてのノード重みへ写像する。式 w~v=H(hv^(T);φ) によって。
  • 生成された重みを介してトレーニング損失を逆伝播することで GHN をエンドツーエンドで訓練する。
  • 長い DAG で勾配フローを改善するために前方-後方の非同期伝播を採用する。
  • 共有パラメータを持つ反復モジュールを跨いで GHN を積み重ねることでアーキテクチャのモチーフを探る。

実験結果

リサーチクエスチョン

  • RQ1グラフベースのハイパーネットワークは、未見のアーキテクチャの計算グラフから正確に重みを予測できるか?
  • RQ2GHN で訓練された代理信号は、探索コストを大幅に削減しつつ競争力のある NAS パフォーマンスを実現するか?
  • RQ3アーキテクチャ間で GHN 予測性能と完全訓練済み性能の相関はどの程度か?
  • RQ4GHN を anytime 予測へ拡張して速度-精度のトレードオフを改善できるか?
  • RQ5設計選択(ノード数、伝播方式、スタックされたアーキテクチャ)がおよび GHN の有効性にどう影響するか?

主な発見

MethodSearch Cost (GPU days)Param ×10^6Accuracy
SMASHv1 (Brock et al., 2018)?4.694.5
SMASHv2 (Brock et al., 2018)316.096.0
One-Shot Top (F=32) (Bender et al., 2018)42.7 ± 0.395.5 ± 0.1
One-Shot Top (F=64) (Bender et al., 2018)410.4 ± 1.095.9 ± 0.2
Random (F=32)-4.6 ± 0.694.6 ± 0.3
GHN Top (F=32)0.425.1 ± 0.695.7 ± 0.1
  • GHN は CIFAR-10 の競争的な結果と ImageNet-mobile の結果を達成し、いくつかのランダム探索ベースラインより約 10 倍速い探索コストで。
  • CIFAR-10 では、GHN Top (F=32) は 0.42 GPU-days の探索コストを要し、5.1e6 パラメータで 95.7% の精度を得る; GHN Top-Best (1K, F=32) は 0.84 GPU-days で 5.7e6 パラメータ、97.16% ±0.07% を達成。
  • ImageNet-mobile では、CIFAR ブロックの最良を GHN 経由で転送すると Top-1 73.0%、Top-5 91.3%、探索コスト 0.84 GPU-days、約 6.1e6 パラメータ。
  • 予測性能の相関は、GHN が上位アーキテクチャで高い相関を示す(0.68 と Random-100、Top-50 0.48 は共有パラメータ積み重ね GHN の前方後方伝播)一方、one-shot および SGD ベースラインと比較して。
  • GHN は強力な anytime-prediction 性能を示し、手作業設計モデルの最先端と比べてより良い速度-精度のトレードオフを持つネットワークを見つける。
  • アブレーション研究は、ノード数をある水準以上増やすと学習が悪化すること、前方後方伝播が同期スキームより優れていること、スタックされた GHN 間でパラメータを共有すると性能が向上することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。