Skip to main content
QUICK REVIEW

[论文解读] SMASH: One-Shot Model Architecture Search through HyperNetworks

Andrew Brock, Theodore Lim|arXiv (Cornell University)|Aug 17, 2017
Machine Learning and Data Classification参考文献 32被引用 392
一句话总结

SMASH 训练一个 HyperNet 以为变架构网络生成权重,通过一次训练即可对大量架构进行快速排序。它用 HyperNet 生成的权重来评估架构,以选出适合进行全训练的有前景的设计。

ABSTRACT

Designing architectures for deep neural networks requires expert knowledge and substantial computation time. We propose a technique to accelerate architecture selection by learning an auxiliary HyperNet that generates the weights of a main model conditioned on that model's architecture. By comparing the relative validation performance of networks with HyperNet-generated weights, we can effectively search over a wide range of architectures at the cost of a single training run. To facilitate this search, we develop a flexible mechanism based on memory read-writes that allows us to define a wide range of network connectivity patterns, with ResNet, DenseNet, and FractalNet blocks as special cases. We validate our method (SMASH) on CIFAR-10 and CIFAR-100, STL-10, ModelNet10, and Imagenet32x32, achieving competitive performance with similarly-sized hand-designed networks. Our code is available at https://github.com/ajbrock/SMASH

研究动机与目标

  • 通过避免对每个候选方案进行充分训练来减少架构搜索成本。
  • 提出一种基于灵活记忆库的编码,以表示多样的网络连通结构。
  • 引入一个动态 HyperNet,将架构编码映射到主网络的权重。
  • 研究 SMASH 代理性能与在不同数据集上实际训练性能之间的相关性。
  • 探究所发现架构在跨数据集与领域的可迁移性。

提出的方法

  • 将网络定义为记忆库视角,将可变深度和连通性编码为二进制向量。
  • 训练一个 HyperNet,将架构编码映射到主网络的权重,实现在架构条件下生成权重。
  • 在 SMASH 训练过程中,抽样架构,通过 HyperNet 生成其权重,并对整个系统进行反向传播。
  • 在验证集上使用 HyperNet 生成的权重评估一组架构,以对其进行全训练排名。
  • 固定得分最高的架构,并用自由学习的权重进行最终评估。
Figure 1: Memory-Bank representations of ResNet, DenseNet, and FractalNet blocks.
Figure 1: Memory-Bank representations of ResNet, DenseNet, and FractalNet blocks.

实验结果

研究问题

  • RQ1SMASH 生成的权重代理是否与完全训练后的架构性能相关?
  • RQ2SMASH 能否在一次训练中可靠地对广泛的架构进行排序?
  • RQ3通过 SMASH 进行的架构搜索如何迁移到不同的数据集和领域?
  • RQ4HyperNet 的容量对 SMASH 分数的可靠性有何影响?
  • RQ5是否可以利用学习到的架构到权重的映射,在架构空间中提供类似梯度的引导?

主要发现

  • 在某些训练配置下,观察到 SMASH 分数与 CIFAR-100 的真实验证性能之间的相关性。
  • 降低容量的 HyperNets 可能破坏 SMASH 分数与真实性能之间的相关性。
  • 当大部分容量集中在固定的(非生成的)权重时,SMASH 得分可能无法很好地预测架构性能。
  • 在评估时破坏架构编码的方法会降低验证性能,表明 HyperNet 学会了基于架构的权重。
  • 在 CIFAR-10/100 和 Imagenet32x32 上,表现最佳的 SMASHv2 架构与一些手工设计的网络及其他 NAS 方法相比,取得了具竞争力的结果。
  • 将基于 CIFAR 的架构迁移到 STL-10 和 ModelNet10 显示结果参差不齐,表明更大的数据集可能提高架构区分度。
Figure 3: An unrolled graph, its equivalent memory-bank representation, and its encoded embedding.
Figure 3: An unrolled graph, its equivalent memory-bank representation, and its encoded embedding.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。