QUICK REVIEW

[论文解读] Accelerating Very Deep Convolutional Networks for Classification and Detection

Xiangyu Zhang, Jianhua Zou|arXiv (Cornell University)|May 26, 2015

Advanced Neural Network Applications参考文献 40被引用 29

一句话总结

本文提出一种基于广义奇异值分解（GSVD）的非线性、非对称响应重构方法，无需依赖随机梯度下降（SGD），即可加速非常深的卷积神经网络（如VGG-16）。在ImageNet上实现4倍加速的同时，top-5错误率仅增加0.3%，在目标检测任务中mAP仅下降0.8%，表现出色于以往方法在深度模型加速中的精度与可扩展性表现。

ABSTRACT

This paper aims to accelerate the test-time computation of convolutional neural networks (CNNs), especially very deep CNNs that have substantially impacted the computer vision community. Unlike previous methods that are designed for approximating linear filters or linear responses, our method takes the nonlinear units into account. We develop an effective solution to the resulting nonlinear optimization problem without the need of stochastic gradient descent (SGD). More importantly, while previous methods mainly focus on optimizing one or two layers, our nonlinear method enables an asymmetric reconstruction that reduces the rapidly accumulated error when multiple (e.g., >=10) layers are approximated. For the widely used very deep VGG-16 model, our method achieves a whole-model speedup of 4x with merely a 0.3% increase of top-5 error in ImageNet classification. Our 4x accelerated VGG-16 model also shows a graceful accuracy degradation for object detection when plugged into the Fast R-CNN detector.

研究动机与目标

为解决在测试阶段加速极深卷积神经网络（如VGG-16）时，不依赖基于SGD的优化方法的挑战。
降低在极深网络中（尤其超过10层）对多层进行近似时累积误差的快速增长问题。
通过基于冗余度与计算成本的自适应秩选择策略，实现对整个模型的有效加速。
在ImageNet图像分类与PASCAL VOC目标检测等复杂基准上评估该方法，以支持迁移学习应用。
证明加速效果并非仅源于网络结构变化，而是源于能够有效保留模型信息的优化算法。

提出的方法

提出一种非线性响应重构方法，显式建模卷积层中ReLU单元的非线性特性，避免使用SGD。
引入一种非对称重构策略，考虑先前已近似层的误差传播，从而减少深层堆叠中的累积误差。
采用广义奇异值分解（GSVD）直接求解非线性优化问题，实现无需反向传播的闭式解。
开发一种自适应秩选择方法，根据滤波器冗余度、特征图尺寸与计算成本，确定各层的压缩比。
通过将所有13个卷积层使用低秩近似进行分解，对整个VGG-16模型实施该方法，同时保持特征层次结构。
在分解后对加速模型进行端到端微调，以进一步提升精度。

实验结果

研究问题

RQ1非线性、非对称重构方法是否能有效减少在极深网络中加速多层时的误差累积？
RQ2基于GSVD的优化方法在精度与收敛性方面是否优于基于SGD的求解器，适用于深度模型加速？
RQ3能否在ImageNet与PASCAL VOC等复杂基准上，以极低精度损失实现对VGG-16等极深模型的全模型加速？
RQ4性能提升是否仅源于网络结构压缩，还是优化算法本身在保持表征能力方面起到了关键作用？
RQ5自适应秩选择策略如何在计算冗余与特征冗余各异的各层之间，平衡加速与精度？

主要发现

所提方法在VGG-16上实现理论4倍加速，微调后在ImageNet图像分类任务中top-5错误率仅增加0.3%。
未进行微调时，该方法在4倍加速下仍仅导致0.9%的top-5错误率增加，展现出鲁棒性与高效的信息保留能力。
该方法优于先前工作：Figurnov等人报告在CPU 3倍与4倍加速下，错误率分别增加3.4%与7.1%，而本方法显著降低了精度退化。
在PASCAL VOC 2007上使用Fast R-CNN进行目标检测时，4倍加速模型的mAP仅下降0.8%（从66.9%降至66.1%），表现出平稳的精度-速度权衡。
5倍加速版本导致mAP下降1.7%，表明速度与精度之间的权衡具有可预测性与可控性。
实验表明，使用相同压缩架构从头训练的模型性能更差，证明优化算法本身而非结构设计，是实现高效加速的关键。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。