QUICK REVIEW

[论文解读] Data-Dependent Coresets for Compressing Neural Networks with Applications to Generalization Bounds

Cenk Baykal, Lucas Liebenwein|arXiv (Cornell University)|Apr 15, 2018

Neural Networks and Applications被引用 48

一句话总结

本文提出 CoreNet，一种基于核心集的通过对权重进行重要性采样来稀疏化已训练的全连接神经网络的方法，对输出近似具有保证并给出新的泛化界限。

ABSTRACT

We present an efficient coresets-based neural network compression algorithm that sparsifies the parameters of a trained fully-connected neural network in a manner that provably approximates the network's output. Our approach is based on an importance sampling scheme that judiciously defines a sampling distribution over the neural network parameters, and as a result, retains parameters of high importance while discarding redundant ones. We leverage a novel, empirical notion of sensitivity and extend traditional coreset constructions to the application of compressing parameters. Our theoretical analysis establishes guarantees on the size and accuracy of the resulting compressed network and gives rise to generalization bounds that may provide new insights into the generalization properties of neural networks. We demonstrate the practical effectiveness of our algorithm on a variety of neural network configurations and real-world data sets.

研究动机与目标

动机：在实际场景中对已训练的全连接网络进行压缩，以降低存储和推理成本。
提出一种原理性、基于核心集的稀疏化方法，使网络输出在用户指定的误差范围内保持。
给出关于压缩后网络规模、近似精度及相关泛化界限的理论保证。
将传统核心集扩展到参数数量的减少，而非数据点的减少。

提出的方法

给出一个参数的 $(\epsilon, \delta)$-核心集定义，以在高概率下确保输出的 $(1 \pm \epsilon)$-近似。
引入一个基于新颖的经验敏感度度量的网络边缘权重重要性采样方案。
使用从子集数据缓存的激活值计算神经元层面的边敏感性，并在保持无偏再加权的前提下执行边缘稀疏化。
对正权重与负权重分别进行稀疏化以处理有符号连接，然后合并结果。
通过 CoreNet+（神经元剪枝）和 CoreNet++（通过多核心集放大）扩展 CoreNet，以实现更高的压缩率。
提供理论分析，将核心采样与跨层的近似保证联系起来。

实验结果

研究问题

RQ1基于核心集的方法能否在保留输出在指定误差范围内的前提下，对神经网络参数进行稀疏化？
RQ2在使用数据相关的核心集进行参数压缩时，对压缩后的网络规模和泛化性有哪些理论保证？
RQ3边缘级重要性采样在保持精度方面与均匀采样或基于范数的稀疏化相比如何？
RQ4像神经元剪枝和放大等扩展是否能够在不牺牲保证的前提下显著提升压缩效果？
RQ5在不同数据集和架构上，该方法在精度和压缩比方面的表现如何？

主要发现

CoreNet 将训练好的全连接网络稀疏化到原始规模的大约 15%，在 MNIST 和 FashionMNIST 上的准确率损失很小；在 CIFAR-10 上约为 50%。
基于经验敏感性的抽样在所测试的架构和数据集中，相较于均匀抽样和基于范数的矩阵稀疏化，具有更好的压缩性能。
该方法提供概率保证，使压缩后的网络输出相对于原始输出的相对误差保持在所选范围内。
CoreNet+，增加了神经元剪枝；CoreNet++，包含放大，进一步提高压缩，同时不违反理论保证。
推论确立了通过所提出方法压缩的网络的泛化界限，将经验敏感性与泛化性能联系起来。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。