QUICK REVIEW

[论文解读] Diversity Networks: Neural Network Compression Using Determinantal Point Processes

Zelda Mariet, Suvrit Sra|arXiv (Cornell University)|Nov 16, 2015

Stochastic Gradient Optimization Techniques参考文献 23被引用 50

一句话总结

该论文提出Divnet，一种新颖的神经网络压缩方法，利用行列式点过程（DPP）选择层内多样化的神经元，并通过重新加权连接来融合冗余神经元，显著减小模型尺寸的同时保持性能损失最小。该方法可实现网络架构的有效自动调优，在准确率和效率方面优于现有剪枝技术。

ABSTRACT

We introduce Divnet, a flexible technique for learning networks with diverse neurons. Divnet models neuronal diversity by placing a Determinantal Point Process (DPP) over neurons in a given layer. It uses this DPP to select a subset of diverse neurons and subsequently fuses the redundant neurons into the selected ones. Compared with previous approaches, Divnet offers a more principled, flexible technique for capturing neuronal diversity and thus implicitly enforcing regularization. This enables effective auto-tuning of network architecture and leads to smaller network sizes without hurting performance. Moreover, through its focus on diversity and neuron fusing, Divnet remains compatible with other procedures that seek to reduce memory footprints of networks. We present experimental results to corroborate our claims: for pruning neural networks, Divnet is seen to be notably superior to competing approaches.

研究动机与目标

为解决深度神经网络中冗余参数的问题，这些参数会增加内存占用和训练成本。
开发一种原则性强且灵活的方法，通过促进隐藏层内神经元多样性来减小网络规模。
实现无需重新训练的自动后训练网络压缩，同时保持性能。
设计一种重加权过程，确保神经元融合后仍能保持模型准确率。
创建一种与其他压缩技术兼容且适用于多种网络架构的方法。

提出的方法

使用基于神经元激活向量构建的核矩阵的行列式点过程（DPP）对层内神经元多样性进行建模。
从DPP分布中采样一组多样化的神经元作为保留神经元。
通过调整连接权重，应用重加权过程将被剪枝神经元的影响传递给选定的神经元。
基于高斯RBF或其他相似性度量构建DPP核，量化神经元相似性并促进多样性。
独立于激活函数、学习率和网络深度运行，实现广泛兼容性。
通过训练数据子集大小调节采样和重加权的精度，平衡速度与准确率。

实验结果

研究问题

RQ1基于DPP的神经元采样是否能比随机剪枝或基于大小的剪枝带来更有效、更多样化的网络压缩？
RQ2所提出的重加权机制是否能成功在神经元融合后保持模型性能？
RQ3在不同数据集和网络架构下，Divnet与现有剪枝方法相比在准确率和模型尺寸压缩方面表现如何？
RQ4Divnet是否无需架构修改即可有效应用于CNN中的全连接层及其他深度网络？
RQ5使用DPP是否能带来比标准剪枝策略更好的泛化能力或隐式正则化效果？

主要发现

在MNIST、CIFAR-10和SVHN数据集上，Divnet在测试准确率方面始终优于其他剪枝方法。
在MNIST上，Divnet在100个神经元下实现了0.49 ± 0.004的测试误差，优于所有基线方法在相同规模下的表现。
在CIFAR-10上，Divnet在100个神经元下实现了0.51 ± 0.005的测试误差，显著优于其他方法。
仅重加权步骤便在所有基线方法上提升了性能，证明其具有普遍优势。
采样与重加权过程的速度比训练快几个数量级，使Divnet在后训练压缩中具有实际可行性。
DPP核的期望采样大小在最后一层隐藏层中始终更小，表明输出层连接收敛更快。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。