[论文解读] How far can we go without convolution: Improving fully-connected networks
本文表明,通过采用线性瓶颈层和无偏置自编码器的无监督预训练,全连接网络可在不使用卷积层的情况下实现图像分类的高性能。这些技术改善了梯度流动并减少了激活稀疏性,使全连接网络在使用数据增强的情况下于CIFAR-10上达到78.62%的准确率,仅比最先进卷积网络低约10%。
We propose ways to improve the performance of fully connected networks. We found that two approaches in particular have a strong effect on performance: linear bottleneck layers and unsupervised pre-training using autoencoders without hidden unit biases. We show how both approaches can be related to improving gradient flow and reducing sparsity in the network. We show that a fully connected network can yield approximately 70% classification accuracy on the permutation-invariant CIFAR-10 task, which is much higher than the current state-of-the-art. By adding deformations to the training data, the fully connected network achieves 78% accuracy, which is just 10% short of a decent convolutional network.
研究动机与目标
- 探究全连接网络是否可在不依赖权重重用或卷积操作的情况下实现图像分类的高性能。
- 解决深度全连接网络中梯度流动和激活稀疏性带来的挑战。
- 探索生物上合理且硬件高效的卷积架构替代方案。
- 评估线性瓶颈层和无偏置自编码器预训练对网络性能的影响。
- 确定是否能有效管理稀疏性而不损害优化或泛化能力。
提出的方法
- 引入线性瓶颈层——在高维ReLU激活层之间插入低维线性变换,以改善梯度流动并减少稀疏性。
- 使用无隐藏单元偏置的自编码器进行无监督预训练,以促进正交权重初始化并稳定学习过程。
- 采用Z-LIN架构:交替排列线性瓶颈层(Z)和ReLU激活层(Lin),形成深度堆叠的此类模块。
- 在预训练和微调过程中使用随机失活(dropout)进行正则化,以训练网络。
- 应用数据增强(翻转、旋转、平移)以打破排列不变性,提升全连接网络的泛化能力。
- 与基线模型(包括逻辑回归、深层MLP、RBMs以及先前最先进方法)在排列不变的CIFAR-10数据集上进行性能比较。
实验结果
研究问题
- RQ1全连接网络是否可在不依赖卷积归纳偏置的情况下实现图像分类的高性能?
- RQ2线性瓶颈层如何影响深度全连接网络中的梯度流动和稀疏性?
- RQ3使用无隐藏单元偏置的自编码器进行训练,对后续分类性能有何影响?
- RQ4数据增强在多大程度上可弥补全连接网络中缺乏排列不变性的问题?
- RQ5与PReLU和Maxout相比,这些架构和预训练选择在优化和准确率方面表现如何?
主要发现
- 采用线性瓶颈层和无偏置自编码器预训练的全连接网络在排列不变的CIFAR-10任务上达到69.62%的准确率,优于先前最先进结果(63.1%和63.9%)。
- 在应用数据增强(翻转、旋转、平移)后,同一全连接架构的准确率达到78.62%,仅比训练良好的卷积网络低约10%。
- 使用线性瓶颈层通过减少稀疏性和改善梯度在深层网络中的流动,有效缓解了梯度消失问题。
- 使用无偏置自编码器进行预训练有助于正交化权重子集并改善优化,对性能提升有显著贡献。
- 线性瓶颈层与无偏置预训练的组合在排列不变的CIFAR-10基准测试中优于使用PReLU或Maxout激活函数的等效网络。
- 结果表明,当通过架构设计有效管理稀疏性和梯度流动时,全连接网络即使缺乏如权重重用等归纳偏置,也能表现出极高的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。