Skip to main content
QUICK REVIEW

[論文レビュー] SMASH: One-Shot Model Architecture Search through HyperNetworks

Andrew Brock, Theodore Lim|arXiv (Cornell University)|Aug 17, 2017
Machine Learning and Data Classification参考文献 32被引用数 392
ひとこと要約

SMASHはハイパーネットを訓練して可変アーキテクチャネットワークの重みを生成し、単一の学習実行で多数のアーキテクチャをワンショットでランク付けを可能にする。HyperNet生成の重みに基づいてアーキテクチャを評価し、完全訓練のための有望な設計を選択する。

ABSTRACT

Designing architectures for deep neural networks requires expert knowledge and substantial computation time. We propose a technique to accelerate architecture selection by learning an auxiliary HyperNet that generates the weights of a main model conditioned on that model's architecture. By comparing the relative validation performance of networks with HyperNet-generated weights, we can effectively search over a wide range of architectures at the cost of a single training run. To facilitate this search, we develop a flexible mechanism based on memory read-writes that allows us to define a wide range of network connectivity patterns, with ResNet, DenseNet, and FractalNet blocks as special cases. We validate our method (SMASH) on CIFAR-10 and CIFAR-100, STL-10, ModelNet10, and Imagenet32x32, achieving competitive performance with similarly-sized hand-designed networks. Our code is available at https://github.com/ajbrock/SMASH

研究の動機と目的

  • 候補ごとに完全訓練を回避してアーキテクチャ探索コストを削減する動機づけ。
  • 多様なネットワーク接続性を表現する柔軟なメモリーバンクベースのエンコーディングを提案する。
  • アーキテクチャのエンコーディングを主ネットワークの重みにマッピングするダイナミック・ハイパーネットを導入する。
  • SMASHプロキシの性能と実際に訓練された性能との相関をデータセットを跨って調査する。
  • 発見されたアーキテクチャのデータセットやドメインを超えた適用性を探る。

提案手法

  • 変動する深さと接続性を二進ベクトルとしてエンコードするネットワークのメモリーバンク視点を定義する。
  • アーキテクチャのエンコーディングを主ネットワークの重みにマッピングするハイパーネットを訓練し、アーキテクチャに条件付けられた重み生成を可能にする。
  • SMASH訓練中にアーキテクチャをサンプルし、HyperNetを介してそれらの重みを生成し、全体のシステムを通して誤差逆伝播を行う。
  • HyperNet生成の重みを用いて検証セットで一連のアーキテクチャを評価し、完全訓練のためにランク付けする。
  • 最高スコアを得たアーキテクチャを固定し、自由に学習された重みで最終評価を行う。
Figure 1: Memory-Bank representations of ResNet, DenseNet, and FractalNet blocks.
Figure 1: Memory-Bank representations of ResNet, DenseNet, and FractalNet blocks.

実験結果

リサーチクエスチョン

  • RQ1SMASH生成の重みプロキシは、完全に訓練されたアーキテクチャの性能と相関するか?
  • RQ2SMASHは1回の訓練実行で広範なアーキテクチャを信頼性高くランク付けできるか?
  • RQ3SMASHによるアーキテクチャ探索は、異なるデータセットやドメインへどのように転移するか?
  • RQ4HyperNet容量がSMASHスコアの信頼性に与える影響は何か?
  • RQ5学習されたアーキテクチャ-to-重みのマッピングを、アーキテクチャ空間での勾配のような指針として利用できるか?

主な発見

  • 一部の訓練設定下で、CIFAR-100におけるSMASHスコアと真の検証性能との相関が観察される。
  • 容量を抑えたHyperNetsは、SMASHスコアと実際の性能の相関を壊す可能性がある。
  • 能力の大部分が固定(非生成)重みにある場合、SMASHスコアはアーキテクチャ性能を適切に予測しないかもしれない。
  • 評価時にアーキテクチャエンコーディングを破壊する方法は検証性能を低下させ、HyperNetがアーキテクチャ条件付きの重みを学習していることを示唆する。
  • 最も性能の高いSMASHv2アーキテクチャは、CIFAR-10/100およびImagenet32x32で、手作り設計ネットワークや他のNAS手法と比べて競争力のある結果を達成した。
  • CIFARベースの発見されたアーキテクチャのSTL-10およびModelNet10への転移は混在した結果を示し、より大きなデータセットがアーキテクチャの識別を改善する可能性を示唆している。
Figure 3: An unrolled graph, its equivalent memory-bank representation, and its encoded embedding.
Figure 3: An unrolled graph, its equivalent memory-bank representation, and its encoded embedding.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。