QUICK REVIEW

[论文解读] DecomposeMe: Simplifying ConvNets for End-to-End Learning

José M. Alvarez, Lars Petersson|arXiv (Cornell University)|Jun 17, 2016

Advanced Neural Network Applications参考文献 20被引用 34

一句话总结

DecomposeMe 提出了一种新颖的一维卷积架构，通过将二维卷积核分解为可学习的一维卷积核组合，实现了参数效率提升和性能改进。通过在训练过程中将滤波器可分离性作为硬约束，并在层内共享一维滤波器，该方法在 Places2 上相比 VGG-B 将参数量减少了 92%，top-1 准确率提升了 7.7%，同时推理速度提升了 4.3 倍。

ABSTRACT

Deep learning and convolutional neural networks (ConvNets) have been successfully applied to most relevant tasks in the computer vision community. However, these networks are computationally demanding and not suitable for embedded devices where memory and time consumption are relevant. In this paper, we propose DecomposeMe, a simple but effective technique to learn features using 1D convolutions. The proposed architecture enables both simplicity and filter sharing leading to increased learning capacity. A comprehensive set of large-scale experiments on ImageNet and Places2 demonstrates the ability of our method to improve performance while significantly reducing the number of parameters required. Notably, on Places2, we obtain an improvement in relative top-1 classification accuracy of 7.7\% with an architecture that requires 92% fewer parameters compared to VGG-B. The proposed network is also demonstrated to generalize to other tasks by converting existing networks.

研究动机与目标

为了解决大规模卷积神经网络在资源受限环境（如嵌入式设备）中带来的高内存和计算成本问题。
在不损失甚至提升分类性能的前提下，减少卷积层中的参数数量。
实现紧凑高效网络的端到端训练，无需预训练模型或后续微调。
将该架构推广至图像分类以外的其他视觉任务，如立体匹配。
通过在一维滤波器组件之间引入非线性激活，提升网络的表示能力，从而增加有效网络深度。

提出的方法

该方法将二维卷积滤波器分解为一维滤波器的线性组合，并在训练过程中强制执行可分离性作为硬约束。
通过在层内跨通道共享一维滤波器，减少冗余，进一步降低参数数量。
在一维滤波器组件之间插入 ReLU 激活函数，增加线性区域的数量，从而增强表示能力。
该架构从零开始进行端到端训练，避免了预训练或微调步骤。
该方法被应用于标准图像分类和立体匹配任务，证明了其可迁移性。
通过使用更大的卷积核或堆叠的一维卷积，保持与原始模型相当的感受野大小（例如 9×9）。

实验结果

研究问题

RQ1一维滤波器分解是否能显著减少卷积神经网络中的参数数量，同时保持或提升性能？
RQ2在训练过程中将滤波器可分离性作为硬约束，是否相比事后近似方法能带来更好的泛化性和效率？
RQ3所提出的架构是否能推广到图像分类以外的其他视觉任务，如立体匹配？
RQ4在一维滤波器组件之间插入非线性激活是否能增加网络的有效深度和学习能力？
RQ5与标准的 VGG 类架构相比，该方法是否能以极少的参数量和推理时间实现最先进性能？

主要发现

在 Places2 数据集上，DecomposeMe 相较于 VGG-B 实现了 7.7% 的 top-1 分类准确率相对提升，尽管参数量仅为后者的 8%。
所提出的架构相比 VGG-B 将参数量减少了 92%，同时保持或提升了性能。
在 Places2 上，该方法在前向-反向传播时间上实现了 4.3 倍的加速。
在 KITTI2012 的立体匹配任务中，分解后的特征提取器仅使用卷积层 24.3% 的参数，便达到了与原始模型相似的性能。
每批 8 张图像的特征提取时间从 776.9 秒减少至 281.9 秒，降低了 63.8%，对整体运行时间影响极小。
该方法泛化能力出色：当应用于立体匹配网络时，仅用极少参数即可保持具有竞争力的误差率（例如 2.72% 的 OA）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。