Skip to main content
QUICK REVIEW

[论文解读] Net-Trim: Convex Pruning of Deep Neural Networks with Performance Guarantee

Alireza Aghasi, Afshin Abdi|arXiv (Cornell University)|Nov 16, 2016
Stochastic Gradient Optimization Techniques被引用 114
一句话总结

Net-Trim 引入了一种逐层的凸剪枝方法,在保持层的输入输出关系在受控公差内的同时,对训练好的神经网络进行稀疏化,提供性能保证以及两种再训练方案(并行和级联)。

ABSTRACT

We introduce and analyze a new technique for model reduction for deep neural networks. While large networks are theoretically capable of learning arbitrarily complex models, overfitting and model redundancy negatively affects the prediction accuracy and model variance. Our Net-Trim algorithm prunes (sparsifies) a trained network layer-wise, removing connections at each layer by solving a convex optimization program. This program seeks a sparse set of weights at each layer that keeps the layer inputs and outputs consistent with the originally trained model. The algorithms and associated analysis are applicable to neural networks operating with the rectified linear unit (ReLU) as the nonlinear activation. We present both parallel and cascade versions of the algorithm. While the latter can achieve slightly simpler models with the same generalization performance, the former can be computed in a distributed manner. In both cases, Net-Trim significantly reduces the number of connections in the network, while also providing enough regularization to slightly reduce the generalization error. We also provide a mathematical analysis of the consistency between the initial network and the retrained model. To analyze the model sample complexity, we derive the general sufficient conditions for the recovery of a sparse transform matrix. For a single layer taking independent Gaussian random vectors of length $N$ as inputs, we show that if the network response can be described using a maximum number of $s$ non-zero weights per node, these weights can be learned from $\\mathcal{O}(s\\log N)$ samples.

研究动机与目标

  • 驱动模型简化以减少训练好的深度网络中的过拟合和冗余。
  • 开发一个逐层的凸剪枝框架,使权重矩阵变得稀疏。
  • 提供原始网络与重新训练后网络之间一致性的理论保证。
  • 提供计算可行的实用并行和级联再训练方案。

提出的方法

  • 将每一层的剪枝建模为一个凸代理,通过在对 ReLU 约束的凸松弛下最小化权重矩阵的 l1 范数来实现层级一致性。
  • 对于给定层,求解 min ||U||1,约束条件近似使得激活后的输出与原始层输出保持一致。
  • 提供两种重新训练方案:并行 Net-Trim(独立的逐层重新训练)和级联 Net-Trim(将层输出传播到后续重新训练)。
  • 推导跨层重新训练误差传播的理论界限(定理 1 和 定理 2)。
  • 特殊情形分析表明在高斯输入条件下学习稀疏权重矩阵的样本复杂度(定理 3)。
  • 展示在实际剪枝中的高稀疏性能力(例如在一个示例中剪掉>93% 的连接)以及与现有训练正则化方法的兼容性。

实验结果

研究问题

  • RQ1逐层凸规划是否能够在保持原始层输出与重新训练后层输出相近的同时恢复稀疏权重矩阵?
  • RQ2在顺序或并行重新训练层时,对误差传播的理论保证是什么?
  • RQ3在高斯输入假设下,需要多少样本来恢复一个稀疏的层变换?
  • RQ4并行 Net-Trim 与级联 Net-Trim 在稀疏性、可行性和泛化性能方面的比较如何?
  • RQ5Net-Trim 是否在训练后与现有正则化技术结合,而不需从头重新训练?

主要发现

  • Net-Trim 实现显著的稀疏化,同时在跨层保证网络响应在原始值的一个受控的 epsilon 范围内。
  • 并行 Net-Trim 使用凸程序独立地重新训练每一层,便于分布式计算,并产生受界的分层误差累积(epsilon 的和)。
  • 级联 Net-Trim 逐层顺序重新训练,使用放宽的公差来维持可行性,从而产生潜在更稀疏的模型,且误差增长略有不同。
  • 在高斯输入下,每列最多有 s 个非零项的稀疏权重矩阵可以从 O(s log N) 个样本中学习到(定理 3)。
  • Net-Trim 可以对已训练的网络进行后处理,进一步降低模型复杂度,超越如 dropout 或 l1 罚则等现有正则化方法。
  • 该框架提供了一种有原理、凸性的方法来进行剪枝,维持原始网络与重新训练网络之间的紧密对应关系(一致性保证)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。