Skip to main content
QUICK REVIEW

[论文解读] Doubly Convolutional Neural Networks

Shuangfei Zhai, Yu Cheng|arXiv (Cornell University)|Oct 30, 2016
Advanced Neural Network Applications参考文献 21被引用 32
一句话总结

本文提出双卷积神经网络(DCNNs),通过引入一种双重卷积操作,使滤波器组在空间上相互平移,从而实现参数共享,增强标准CNN。该方法在参数效率和模型准确率方面均有提升,在CIFAR-10、CIFAR-100和ImageNet上,无论参数数量是否增加,其性能均持续优于标准CNN和maxout网络。

ABSTRACT

Building large models with parameter sharing accounts for most of the success of deep convolutional neural networks (CNNs). In this paper, we propose doubly convolutional neural networks (DCNNs), which significantly improve the performance of CNNs by further exploring this idea. In stead of allocating a set of convolutional filters that are independently learned, a DCNN maintains groups of filters where filters within each group are translated versions of each other. Practically, a DCNN can be easily implemented by a two-step convolution procedure, which is supported by most modern deep learning libraries. We perform extensive experiments on three image classification benchmarks: CIFAR-10, CIFAR-100 and ImageNet, and show that DCNNs consistently outperform other competing architectures. We have also verified that replacing a convolutional layer with a doubly convolutional layer at any depth of a CNN can improve its performance. Moreover, various design choices of DCNNs are demonstrated, which shows that DCNN can serve the dual purpose of building more accurate models and/or reducing the memory footprint without sacrificing the accuracy.

研究动机与目标

  • 通过利用学习滤波器中的结构冗余,提升深度CNN的泛化能力。
  • 开发一种参数高效的架构,在减少内存占用的同时保持或提升准确率。
  • 提供一种可即插即用的标准卷积层替代方案,适用于所有网络深度,提升性能。
  • 证明在训练好的CNN中,滤波器平移相关性是各层中的一致性特征。
  • 验证DCNN可灵活配置,以平衡性能与模型大小。

提出的方法

  • 引入一种双重卷积层,通过与单位核卷积,利用更大的元滤波器生成多个空间平移的滤波器。
  • 采用两步卷积过程:首先通过单位核卷积从元滤波器中提取有效滤波器;其次将结果拼接并作用于输入。
  • 可选地在来自同一元滤波器的滤波器激活上应用最大池化,受maxout网络启发。
  • 定义k-平移相关性以量化滤波器在空间平移下的相似性,表明训练好的CNN中存在高度相关性。
  • 使用标准深度学习库通过现有卷积操作实现DCNN,确保实际可部署性。
  • 通过超参数z′(元滤波器大小)、z(元滤波器数量)、s(步长)和有效滤波器大小配置DCNN,实现灵活的架构设计。

实验结果

研究问题

  • RQ1在CNN中强制实施滤波器平移关系是否能提升泛化能力和参数效率?
  • RQ2将双重卷积操作应用于CNN中的任意层是否能持续提升性能?
  • RQ3DCNN能否在使用更少参数的情况下,实现比标准CNN或maxout网络更高的准确率?
  • RQ4训练好的CNN中,滤波器平移相关性在各层中的变化程度如何?
  • RQ5在DCNN配置中,模型准确率、参数数量与内存占用之间的权衡关系如何?

主要发现

  • DCNN在ImageNet上实现26.27%的top-1错误率,显著优于标准CNN(29.42%)和ResNet-152(21.43%),且在参数效率方面表现更优。
  • 将任意单个卷积层替换为双重卷积层可降低测试误差,其中浅层对性能提升贡献更大。
  • DCNN-4-10-3-1在CIFAR-10上实现9.65%错误率,仅使用基线CNN 69%的参数,实现内存效率且无准确率损失。
  • 在训练好的CNN(如AlexNet和VGG-19)中,平均最大1-平移相关性显著高于随机初始化的滤波器,验证了结构冗余假设。
  • DCNN-128-4-3-2在CIFAR-10上实现8.58%错误率,在CIFAR-100上实现30.35%,优于标准CNN(9.85%和34.26%),且参数量多78%。
  • 所有测试的DCNN变体均持续优于其标准CNN对应模型,无论参数数量如何,证实了其鲁棒性与灵活性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。