Skip to main content
QUICK REVIEW

[论文解读] Path-Level Network Transformation for Efficient Architecture Search

Han Cai, Jiacheng Yang|arXiv (Cornell University)|Jun 7, 2018
Advanced Neural Network Applications参考文献 32被引用 118
一句话总结

引入面向路径的、保持功能的网络变换,以在神经网络中实现拓扑变更,并结合双向树状 RL 元控制器来搜索表达丰富的树状结构架构,在有限计算下在 CIFAR-10 和 ImageNet Mobile 取得了强劲结果。

ABSTRACT

We introduce a new function-preserving transformation for efficient neural architecture search. This network transformation allows reusing previously trained networks and existing successful architectures that improves sample efficiency. We aim to address the limitation of current network transformation operations that can only perform layer-level architecture modifications, such as adding (pruning) filters or inserting (removing) a layer, which fails to change the topology of connection paths. Our proposed path-level transformation operations enable the meta-controller to modify the path topology of the given network while keeping the merits of reusing weights, and thus allow efficiently designing effective structures with complex path topologies like Inception models. We further propose a bidirectional tree-structured reinforcement learning meta-controller to explore a simple yet highly expressive tree-structured architecture space that can be viewed as a generalization of multi-branch architectures. We experimented on the image classification datasets with limited computational resources (about 200 GPU-hours), where we observed improved parameter efficiency and better test results (97.70% test accuracy on CIFAR-10 with 14.3M parameters and 74.6% top-1 accuracy on ImageNet in the mobile setting), demonstrating the effectiveness and transferability of our designed architectures.

研究动机与目标

  • 通过在保持功能的前提下修改路径拓扑来推动并实现超越层级编辑的架构搜索。
  • 提出面向路径的变换操作,允许重用权重并探索像 Inception 模型这样的复杂路径拓扑。
  • 定义一个树状架构空间以及一个基于双向树 LSTM 的 RL 元控制器来导航它。
  • 在 CIFAR-10 上演示样本高效搜索,并在有限 GPU 小时下将其转移到 ImageNet mobile 设置。

提出的方法

  • 定义将单层替换为多分支模组并保持整体功能的面向路径的网络变换操作。
  • 在分支内使用 Net2Net 风格的更深和更宽的变换以创建多样的路径拓扑。
  • 构建一个带分配(复制/分裂)和合并(相加/连接)方案的树状架构空间。
  • 使用一个带底向上和自顶向下 Tree-LSTM 的双向树状强化学习元控制器来将架构映射到变换。
  • 用 REINFORCE 训练元控制器,使用来自验证准确性的奖励和一个小的基线以降低方差。

实验结果

研究问题

  • RQ1面向路径的、保持功能的变换是否能在比层级编辑更丰富的路径拓扑中高效探索网络?
  • RQ2与链式/扁平编码相比,树状 RL 控制器是否能提高搜索效率和发现的架构?
  • RQ3学得的树状单元在更大的基础网络和移动设置的 ImageNet 上的迁移能力如何?

主要发现

  • 在 DenseNet 基础上发现的 CIFAR-10 单元在 3.64% 测试误差(参数量 3.2M)并使用正则化后为 3.14%,在参数显著较少的情况下超越若干基线。
  • 在正则化(DropPath/Cutout)的条件下,CIFAR-10 最佳单元在 14.3M 参数时达到 2.30% 的测试误差,在 5.7M 参数时为 2.49% 。
  • 在 CIFAR-10 上,嵌入 DenseNet/PyramidNet 的 TreeCell-A 取得具竞争力的结果,且所用参数远少于手工设计或先前的 NAS 模型。
  • 在 ImageNet Mobile 设置,TreeCell-A 配 CondenseNet 达到 25.5% Top-1 和 8.0% Top-5,TreeCell-B 达到 25.4% Top-1,和 NASNet-A 在类似 FLOPs 条件下相比,计算资源更少(约 200 个 GPU 小时)。
  • 该方法展示了学习到的树状单元在架构(DenseNet 和 PyramidNet)之间以及在受限计算资源的数据集上的可迁移性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。