QUICK REVIEW

[论文解读] Flattened Convolutional Neural Networks for Feedforward Acceleration

Jonghoon Jin, Ayşegül Dündar|arXiv (Cornell University)|Dec 17, 2014

Advanced Neural Network Applications参考文献 18被引用 207

一句话总结

本文提出了一种展平的卷积神经网络，用通道、垂直和水平方向的序列1D卷积替代3D卷积滤波器，实现了约2倍的推理速度提升，同时保持或提升准确率，并将参数量减少多达10倍，且无需后处理或手动调优。

ABSTRACT

We present flattened convolutional neural networks that are designed for fast feedforward execution. The redundancy of the parameters, especially weights of the convolutional filters in convolutional neural networks has been extensively studied and different heuristics have been proposed to construct a low rank basis of the filters after training. In this work, we train flattened networks that consist of consecutive sequence of one-dimensional filters across all directions in 3D space to obtain comparable performance as conventional convolutional networks. We tested flattened model on different datasets and found that the flattened layer can effectively substitute for the 3D filters without loss of accuracy. The flattened convolution pipelines provide around two times speed-up during feedforward pass compared to the baseline model due to the significant reduction of learning parameters. Furthermore, the proposed method does not require efforts in manual tuning or post processing once the model is trained.

研究动机与目标

解决大型卷积神经网络（CNN）在实时和移动应用中的计算效率低下问题。
在不损害模型准确率的前提下，减少3D卷积滤波器中的参数冗余。
通过在训练期间将3D滤波器重构为序列1D卷积，加速前向推理。
实现在移动电话和嵌入式系统等资源受限设备上的高效部署。
开发一种方法，避免后训练压缩或手动超参数调优，同时保持性能。

提出的方法

将每个3D卷积滤波器替换为三个1D卷积的序列：通道方向（横向）、垂直方向和水平方向。
使用展平的1D结构端到端训练网络，通过受限路径保留反向传播。
使用标准训练流程，无需额外正则化或稀疏性约束。
利用1D卷积中的合并内存访问和计算减少，加速推理。
为CPU和GPU实现优化的1D卷积例程，以最大化性能提升。
在多个数据集上应用相同架构，以评估泛化能力和效率。

实验结果

研究问题

RQ1用序列1D卷积替代3D卷积滤波器是否能保持或提升分类准确率？
RQ2展平的1D结构在多大程度上减少了参数数量并加速了前向推理？
RQ3所提出的方法是否消除了对后训练压缩或手动超参数调优的需求？
RQ4速度提升如何随输入图像尺寸和硬件平台（CPU与GPU）而变化？
RQ5该展平架构能否在CIFAR-10、CIFAR-100和MNIST等多样化数据集上有效应用？

主要发现

在CIFAR-10上，展平模型达到87.04%的测试准确率，略高于基线模型（86.42%）。
在CIFAR-100上，展平模型达到60.92%的准确率，优于基线模型的60.08%，显示出更好的泛化能力。
在MNIST上，展平模型达到99.56%的准确率，略低于基线模型的99.62%，但参数量显著减少。
在所有测试图像尺寸下，展平模型在CPU和GPU上均实现了约2倍的前向推理速度提升。
由于计算和内存访问的相对开销减少，速度提升随图像尺寸增大而进一步增强。
反向传播在GPU上速度提升较小，原因是梯度累积期间频繁访问全局内存，但CPU和GPU上的训练时间仍有所减少。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。