[论文解读] Training Better CNNs Requires to Rethink ReLU.
本文认为,卷积神经网络中标准的1:1卷积-ReLU比例限制了泛化能力,并提出一种比例为N:M(N>M)的模块以提升性能。通过重新思考ReLU的作用,并通过可变比例建模为集成模型,该方法增强了特征表示,在多种网络架构和基准测试中均实现了稳定的准确率提升。
With the rapid development of Deep Convolutional Neural Networks (DCNNs), numerous works focus on designing better network architectures (i.e., AlexNet, VGG, Inception, ResNet and DenseNet etc.). Nevertheless, all these networks have the same characteristic: each convolutional layer is followed by an activation layer, a Rectified Linear Unit (ReLU) layer is the most used among them. In this work, we argue that the paired module with 1:1 convolution and ReLU ratio is not the best choice since it may result in poor generalization ability. Thus, we try to investigate the more suitable convolution and ReLU ratio for exploring the better network architectures. Specifically, inspired by Leaky ReLU, we focus on adopting the proportional module with N:M (N$>$M) convolution and ReLU ratio to design the better networks. From the perspective of ensemble learning, Leaky ReLU can be considered as an ensemble of networks with different convolution and ReLU ratio. We find that the proportional module with N:M (N$>$M) convolution and ReLU ratio can help networks acquire the better performance, through the analysis of a simple Leaky ReLU model. By utilizing the proportional module with N:M (N$>$M) convolution and ReLU ratio, many popular networks can form more rich representations in models, since the N:M (N$>$M) proportional module can utilize information more effectively. Furthermore, we apply this module in diverse DCNN models to explore whether is the N:M (N$>$M) convolution and ReLU ratio indeed more effective. From our experimental results, we can find that such a simple yet effective method achieves better performance in different benchmarks with various network architectures and the experimental results verify that the superiority of the proportional module.
研究动机与目标
- 探究卷积层与ReLU层的标准1:1比例是否限制了深度卷积神经网络的泛化能力。
- 探索可提升特征表示与模型性能的替代卷积与ReLU比例。
- 验证比例为N:M(N>M)的模块作为简单而强大的架构改进方法的有效性。
- 证明N:M模块可在无需架构重构的前提下,持续提升多种标准卷积神经网络架构的性能。
提出的方法
- 提出一种基于Leaky ReLU的集成式行为启发的比例N:M(N>M)卷积与ReLU比例模块。
- 将N:M模块建模为具有不同卷积与ReLU比例的多个网络的隐式集成,以增强特征多样性。
- 引入一种简单的重参数化方法,在保持计算效率的同时支持灵活的比例配置。
- 通过将标准1:1模块替换为新型比例单元,将N:M模块应用于现有架构(如ResNet、VGG、DenseNet)。
- 在标准基准数据集(如ImageNet、CIFAR)上训练并评估模型,与基于标准ReLU的基线模型进行性能对比。
- 分析不同N:M比例对激活统计特性和特征学习动态的影响。
实验结果
研究问题
- RQ1将标准的1:1卷积与ReLU比例替换为N:M(N>M)比例,是否能提升深度CNN的泛化能力?
- RQ2N:M模块是否可被视为一种隐式集成模型?该视角是否能解释其性能增益?
- RQ3与标准ReLU单元相比,N:M模块如何影响特征表示与激活模式?
- RQ4N:M模块是否在多种网络架构与数据集上均能持续提升性能?
- RQ5实现性能与复杂度最佳权衡的最优N:M比例范围是什么?
主要发现
- N:M(N>M)卷积与ReLU比例在多个基准数据集(包括ImageNet和CIFAR)上均一致提升了测试准确率。
- 该模块通过多样化激活模式,实现了更有效的信息利用,从而增强了特征表示能力。
- 即使作为即插即用的替换模块应用于ResNet、DenseNet等成熟架构,性能提升依然显著。
- 该方法在不增加模型复杂度或无需架构重构的前提下,实现了优于标准ReLU网络的性能表现。
- 性能提升主要归因于N:M模块的集成式行为,该行为促进了鲁棒且多样的特征学习。
- 实证结果证实,N:M模块的优越性在不同深度与宽度的网络中均保持一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。