Skip to main content
QUICK REVIEW

[论文解读] Connectivity Learning in Multi-Branch Networks

Karim Ahmed, Lorenzo Torresani|arXiv (Cornell University)|Sep 27, 2017
Domain Adaptation and Few-Shot Learning参考文献 25被引用 25
一句话总结

该论文提出一种通过引入可微二值门来学习深度神经网络中多分支网络连接性的方法,这些门与网络权重通过反向传播联合优化。与ResNeXt等固定架构不同,该方法可自动发现最优输入连接和聚合路径,在不损失性能的前提下实现冗余残差块的自动剪枝,并实现最高达3.8%的准确率提升。

ABSTRACT

While much of the work in the design of convolutional networks over the last five years has revolved around the empirical investigation of the importance of depth, filter sizes, and number of feature channels, recent studies have shown that branching, i.e., splitting the computation along parallel but distinct threads and then aggregating their outputs, represents a new promising dimension for significant improvements in performance. To combat the complexity of design choices in multi-branch architectures, prior work has adopted simple strategies, such as a fixed branching factor, the same input being fed to all parallel branches, and an additive combination of the outputs produced by all branches at aggregation points. In this work we remove these predefined choices and propose an algorithm to learn the connections between branches in the network. Instead of being chosen a priori by the human designer, the multi-branch connectivity is learned simultaneously with the weights of the network by optimizing a single loss function defined with respect to the end task. We demonstrate our approach on the problem of multi-class image classification using three different datasets where it yields consistently higher accuracy compared to the state-of-the-art "ResNeXt" multi-branch network given the same learning capacity.

研究动机与目标

  • 为解决多分支神经网络架构中手动设计带来的挑战,其中连接规则如固定分支数、共享输入和加法聚合等并非最优。
  • 通过端到端训练消除多分支网络中的预定义连接模式,使连接模式可学习。
  • 通过单一损失函数联合优化网络权重和连接结构,提升图像分类性能。
  • 实现冗余残差块的自动识别与剪枝,降低模型大小和推理成本,且不损失准确率。

提出的方法

  • 引入可学习的二值门作为可微开关,控制多分支架构中每个残差块接收的输入特征。
  • 使用直通估计器将梯度反向传播通过离散门,实现连接性和权重的端到端训练。
  • 将门应用于类似ResNeXt架构中每个分支的输入连接,以学习的路由替代固定的路由机制。
  • 通过标准反向传播联合优化整个网络(包括门和卷积权重),使用多分类交叉熵损失。
  • 采用二值门的可微松弛形式,使训练期间梯度能够流动,推理时再做出硬决策。
  • 支持训练后剪枝未使用的残差块,因为门能识别出无贡献的分支。

实验结果

研究问题

  • RQ1多分支卷积网络中的连接性是否可以端到端学习,而非由人工设计者预定义?
  • RQ2通过可微门学习连接性是否能在相同参数预算下优于固定架构如ResNeXt?
  • RQ3学习过程是否能自动识别并消除冗余残差块而不损害准确率?
  • RQ4与现有方法(如权重剪枝或基于强化学习的架构搜索)相比,该方法在效率和准确率方面表现如何?

主要发现

  • 所提方法在四个基准数据集上均实现了比当前最先进ResNeXt模型更高的分类准确率,提升最高达3.8%。
  • 在相同参数预算下,学习得到的连接结构始终优于固定连接的ResNeXt架构。
  • 该算法能自动识别并剪枝高达30%的对最终预测无贡献的残差块,从而减小模型大小并降低推理成本。
  • 剪枝后模型保持完整准确率,表明学习到的门能有效检测并排除冗余组件。
  • 该方法实现了高效的基于梯度的连接性优化,避免了强化学习或进化算法等昂贵的搜索方法。
  • 该方法不仅适用于ResNeXt,还具有推广潜力,可应用于其他具有预定义跳跃连接的架构(如DenseNets)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。