QUICK REVIEW

[论文解读] Systematic Weight Pruning of DNNs using Alternating Direction Method of Multipliers

Tianyun Zhang, Shaokai Ye|arXiv (Cornell University)|Feb 15, 2018

Advanced Neural Network Applications参考文献 8被引用 23

一句话总结

本文提出了一种基于交替方向乘子法（ADMM）的深度神经网络（DNN）系统化权重剪枝框架，用于求解具有每层基数约束的约束非凸优化问题。该方法在保持原始测试精度的同时，实现了显著更高的压缩比——在LeNet-5上最高达40.2×，且收敛速度优于迭代微调方法，相关模型已公开发布以支持可复现性。

ABSTRACT

We present a systematic weight pruning framework of deep neural networks (DNNs) using the alternating direction method of multipliers (ADMM). We first formulate the weight pruning problem of DNNs as a constrained nonconvex optimization problem, and then adopt the ADMM framework for systematic weight pruning. We show that ADMM is highly suitable for weight pruning due to the computational efficiency it offers. We achieve a much higher compression ratio compared with prior work while maintaining the same test accuracy, together with a faster convergence rate. Our models are released at https://github.com/KaiqiZhang/admm-pruning

研究动机与目标

为解决现有启发式、迭代式权重剪枝方法缺乏理论保证且需耗时微调的问题。
将DNN权重剪枝建模为带显式层内权重基数约束的约束非凸优化问题。
利用ADMM的计算效率与收敛特性，实现具有理论基础的系统化、高比例剪枝。
在保持测试精度的前提下，实现高于先前工作的模型压缩比。
公开发布训练好的模型，以支持研究社区的可复现性与基准测试。

提出的方法

将DNN权重剪枝建模为在每层权重基数约束下最小化损失函数的约束非凸优化问题。
通过引入辅助变量和指示函数，将问题转化为ADMM形式以表示稀疏性约束。
应用ADMM交替优化原始权重（通过梯度下降）并将其投影到稀疏可行集上。
投影步骤显式地将除绝对值最大的l_i个权重外的所有权重设为零，直接强制实现稀疏性。
通过对增广对偶变量进行对偶上升更新，以确保原始变量与辅助变量之间的一致性。
ADMM收敛后，剪枝小幅度权重，并对剪枝后的网络进行微调以恢复精度。

实验结果

研究问题

RQ1ADMM能否有效应用于具有硬性稀疏约束的DNN结构化权重剪枝？
RQ2基于ADMM的剪枝方法是否在保持测试精度的同时，实现高于启发式迭代剪枝方法的压缩比？
RQ3与基于迭代微调的剪枝方法相比，ADMM剪枝的收敛速度如何？
RQ4ADMM剪枝对卷积层和全连接层的计算量与模型大小有何影响？
RQ5ADMM剪枝能否在不同DNN架构上系统化应用并实现一致的性能提升？

主要发现

基于ADMM的剪枝方法在LeNet-300-100网络上实现了参数量22.9×的减少，且未造成精度损失。
在LeNet-5上，该方法实现了40.2×的压缩比，显著优于Han等人（2015）报告的12×压缩比。
在LeNet-5的卷积层中，该方法将权重数量减少了10×，超过先前工作的8×减少量。
ADMM约在20次迭代内收敛，总计算时间相当于训练原始网络两次的时间。
剪枝后的最终模型在微调后保持了与原始网络相同的测试精度。
该框架实现了系统化、高比例的剪枝，相比启发式迭代方法具有更快的收敛速度和更高的稀疏度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。