QUICK REVIEW

[论文解读] Tensorizing Neural Networks

Alexander Novikov, Dmitry Podoprikhin|arXiv (Cornell University)|Sep 22, 2015

Tensor decomposition and applications参考文献 25被引用 498

一句话总结

本文通过使用张量列车（Tensor Train, TT）格式表示全连接层的权重矩阵，提出了一种张量化神经网络的方法，使参数量减少高达200,000倍，同时保持模型精度。该方法显著减小了模型规模并加快了推理速度，实现了整个网络高达7倍的压缩率，并可在不超出可行内存与计算限制的前提下，使用更宽、更具表达力的全连接层。

ABSTRACT

Deep neural networks currently demonstrate state-of-the-art performance in several domains. At the same time, models of this class are very demanding in terms of computational resources. In particular, a large amount of memory is required by commonly used fully-connected layers, making it hard to use the models on low-end devices and stopping the further increase of the model size. In this paper we convert the dense weight matrices of the fully-connected layers to the Tensor Train format such that the number of parameters is reduced by a huge factor and at the same time the expressive power of the layer is preserved. In particular, for the Very Deep VGG networks we report the compression factor of the dense weight matrix of a fully-connected layer up to 200000 times leading to the compression factor of the whole network up to 7 times.

研究动机与目标

降低深度神经网络中全连接层的内存与计算成本，因为这些层是模型部署中的主要瓶颈。
在大幅压缩密集权重矩阵参数数量的同时，保持模型精度。
通过用低参数量的TT格式分解替代标准密集矩阵，实现更宽、更具表达力的全连接层。
通过可微的TT操作，确保与标准反向传播训练算法的兼容性。
证明TT分解的网络在CIFAR-10等基准数据集上可超越标准非卷积网络的性能。

提出的方法

将全连接层的密集权重矩阵表示为多维张量，并应用张量列车（TT）分解，将其分解为一系列小型核心张量。
利用TT格式对层进行参数化，使参数数量随输入和输出维度呈线性增长，而非传统的二次增长。
基于TT分解的性质，推导出可用于反向传播的可微更新规则，确保与标准随机梯度下降算法的兼容性。
通过约束TT秩来控制模型容量与压缩率，使用标准优化技术端到端训练TT层。
将TT层应用于VGG风格网络中的全连接层，替换标准密集层，同时保持卷积层不变。
利用TT-Toolbox和MatConvNet扩展，在CPU与GPU环境中高效实现并评估TT层。

实验结果

研究问题

RQ1张量列车分解能否在几乎不损失精度的情况下，有效压缩全连接层的权重矩阵？
RQ2TT分解在保持模型性能的前提下，最多能将全连接层的参数量减少多少？
RQ3使用TT层是否能够训练出比以往更宽、更具表达力的全连接层？
RQ4TT层的推理速度与内存使用量与标准全连接层相比如何？
RQ5TT分解的网络是否能在CIFAR-10等非卷积基准数据集上达到最先进性能？

主要发现

TT层将VGG网络中最大的全连接层压缩了194,622倍（从102,981,504个参数减少到528个），仅导致top-5误差增加0.3%。
当同时压缩最大和第二大的全连接层时，整体网络的压缩率最高达到7.4倍。
在CPU上，TT层的推理速度提升了13倍（每张图像1.2ms vs. 16.1ms），在GPU上提升了6.7倍（1.9ms vs. 12.9ms）。
单次前向传播的内存使用量从全连接层的392 MB降至TT层的0.766 MB，减少超过500倍。
在CIFAR-10上，一个拥有262,144个隐藏单元的极宽TT层，优于其他非卷积网络，创下该类别新SOTA记录。
该方法在压缩效率上优于低秩基线方法，在相近压缩率下表现出显著更低的精度下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。