QUICK REVIEW

[论文解读] Predicting Parameters in Deep Learning

Misha Denil, Babak Shakibi|arXiv (Cornell University)|Jun 3, 2013

Neural Networks and Applications参考文献 23被引用 704

一句话总结

本文提出一种方法，通过使用权重矩阵的低秩分解来大幅减少深度神经网络中的可训练参数数量。通过仅学习一小部分权重，并利用结构化、平滑的参数化方式预测其余权重，作者在理想情况下实现了超过95%的参数预测且准确率无下降，从而实现高效的单机训练并降低分布式训练的开销。

ABSTRACT

We demonstrate that there is significant redundancy in the parameterization of several deep learning models. Given only a few weight values for each feature it is possible to accurately predict the remaining values. Moreover, we show that not only can the parameter values be predicted, but many of them need not be learned at all. We train several different architectures by learning only a small number of weights and predicting the rest. In the best case we are able to predict more than 95% of the weights of a network without any drop in accuracy.

研究动机与目标

在不牺牲模型准确率的前提下，减少深度神经网络中的动态参数数量。
通过将学习到的网络权重建模为低秩矩阵乘积，利用其内在结构冗余性。
通过最小化需要同步的参数数量，实现高效的单机训练，并降低分布式训练中的协调开销。
开发一种与现有深度学习优化方法（如dropout和ReLU）正交的通用技术。
证明大多数网络参数可以通过平滑、数据驱动的权重结构先验进行预测，而非学习得到。

提出的方法

将每一层的权重矩阵表示为两个较小矩阵的低秩乘积，其中一个因子编码结构先验（例如平滑性），另一个因子为可学习部分。
随机选择一部分权重进行动态学习，同时利用固定且结构化的因子预测其余权重。
当缺乏先验平滑结构时，采用数据驱动方法推断权重空间的拓扑结构。
将低秩分解的一个因子固定以施加平滑性或结构约束，而通过标准优化方法学习另一个因子。
在多种架构（包括MLP、CNN和基于ICA的模型）及数据集（如MNIST、CIFAR-10和STL-10）上应用该方法。
区分动态参数（在训练期间学习）与静态参数（一次性预测并重复使用），从而减少分布式系统中的同步需求。

实验结果

研究问题

RQ1我们能否仅通过少量学习得到的参数，就预测绝大多数深度网络权重？
RQ2在不降低模型性能的前提下，我们能在多大程度上减少可训练参数的数量？
RQ3使用固定且结构化的因子进行低秩分解，在多大程度上能捕捉到深度网络的本质表征能力？
RQ4该方法是否可普遍应用于不同架构和数据集，而无需修改网络结构？
RQ5参数预测是否能减少大规模系统中对分布式训练协调的需求？

主要发现

在理想情况下，该方法成功预测了超过95%的网络权重，且准确率无任何下降。
即使仅学习10%的权重，其余90%通过固定且结构化的因子预测，该技术仍能保持性能。
该方法与现有深度学习技术（如dropout、ReLU和maxout）正交且兼容。
通过减少动态参数，该方法显著降低了分布式训练框架中的同步开销。
静态且预先计算的参数可实现高效分发，因为它们在运行时无需跨机器同步。
该方法在多种架构（包括MLP、CNN和基于ICA的模型）及多个基准数据集上均表现出良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。