QUICK REVIEW

[论文解读] Learning Time/Memory-Efficient Deep Architectures with Budgeted Super Networks

Tom Véniat, Ludovic Denoyer|arXiv (Cornell University)|May 31, 2017

Advanced Neural Network Applications参考文献 41被引用 74

一句话总结

本文提出预算超网络（BSN），在计算、内存或分布式成本的预算约束下自动发现神经网络架构，使用一个随机优化框架和策略梯度训练。

ABSTRACT

We propose to focus on the problem of discovering neural network architectures efficient in terms of both prediction quality and cost. For instance, our approach is able to solve the following tasks: learn a neural network able to predict well in less than 100 milliseconds or learn an efficient model that fits in a 50 Mb memory. Our contribution is a novel family of models called Budgeted Super Networks (BSN). They are learned using gradient descent techniques applied on a budgeted learning objective function which integrates a maximum authorized cost, while making no assumption on the nature of this cost. We present a set of experiments on computer vision problems and analyze the ability of our technique to deal with three different costs: the computation cost, the memory consumption cost and a distributed computation cost. We particularly show that our model can discover neural network architectures that have a better accuracy than the ResNet and Convolutional Neural Fabrics architectures on CIFAR-10 and CIFAR-100, at a lower cost.

研究动机与目标

需要一种能够在预测质量与推理成本之间取得平衡的神经网络架构的动机。
提出一个预算学习框架，在不假设特定成本形式的前提下强制最大成本限制。
使得能够在计算、内存或分布式成本约束下优化准确性的架构被发现。
在 CIFAR-10/100 和图像分割任务上与 ResNet 和 CNF 基线相比，证明其有效性。

提出的方法

将大型超网络（S-network）定义为一个有向无环图（DAG），其中边是具有可学习参数的模块；架构对应于该 S-network 的子图。
引入预算超网络（BSN），将成本约束 C 和最大允许成本 C̄ 内嵌到一个带惩罚项的软目标中。
通过引入随机超网络（SS-network），在每次预测之前从参数化分布 Γ 对边上的二进制掩码 H 进行采样，从而放宽组合搜索。
提出一个预算化目标函数，最小化预测损失加成本惩罚 λ max(0, C(H ⊙ E) − C̄)。
推导一个类似策略梯度的梯度，用于联合更新 θ（模块参数）和 Γ（边采样参数）。
证明求解随机问题可以得到一个最优的受约束解（命题 1）。

实验结果

研究问题

RQ1BSN 是否能够在满足指定成本预算的同时保持或提高准确性地发现网络架构？
RQ2与标准架构相比，BSN 在不同成本类型（计算、内存、分布式计算）上的表现如何？
RQ3在训练过程中，随机边采样方法是否收敛到确定的、符合预算的架构？
RQ4在 CIFAR-10/100 和 Part Label 分割任务上，发现的预算化架构是否具有与 ResNet/CNF 基线相比的竞争力或更优表现？

主要发现

BSN 可以在 CIFAR-10/ CIFAR-100 上以相似或更低的成本获得比 ResNet/CNF 基线更高的精度。
对于 CIFAR-10，B-ResNet 在 39.25 百万 FLOPs 下达到 92.39% 的准确率，优于在 40.9 百万 FLOPs 下的 ResNet-20（92.19%）。
对于 CIFAR-10，B-CNF 在显著降低的 FLOPs 情况下实现了显著的精度提升（例如 103 百万 FLOPs 下 93.14%，相比 CNF 基线 406 百万 FLOPs 的 92.54%）。
在 CIFAR-100 上，预算化变体在较低 FLOPs 的情况下达到与标准 ResNet 和 MSDNet 基线相竞争的准确性。
BSN 学习的架构可以分布到多核心上，当使用 n=2 或 n=4 核心时，揭示了并行化结构，并且能够适应给定的分布式成本。
训练动态显示边概率最终趋于确定性，表明收敛到唯一的预算化架构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。