Skip to main content
QUICK REVIEW

[论文解读] Deep $k$-Means: Re-Training and Parameter Sharing with Harder Cluster Assignments for Compressing Deep Convolutions

Junru Wu, Yue Wang|arXiv (Cornell University)|Jun 24, 2018
Advanced Neural Network Applications参考文献 32被引用 84
一句话总结

本文提出一种光谱放宽的 k-means 正则化,在再训练过程中促进硬聚类分配,以及一种用于卷积权重的逐行参数共享策略,使CNN在考虑能耗评估的前提下实现高效压缩。

ABSTRACT

The current trend of pushing CNNs deeper with convolutions has created a pressing demand to achieve higher compression gains on CNNs where convolutions dominate the computation and parameter amount (e.g., GoogLeNet, ResNet and Wide ResNet). Further, the high energy consumption of convolutions limits its deployment on mobile devices. To this end, we proposed a simple yet effective scheme for compressing convolutions though applying k-means clustering on the weights, compression is achieved through weight-sharing, by only recording $K$ cluster centers and weight assignment indexes. We then introduced a novel spectrally relaxed $k$-means regularization, which tends to make hard assignments of convolutional layer weights to $K$ learned cluster centers during re-training. We additionally propose an improved set of metrics to estimate energy consumption of CNN hardware implementations, whose estimation results are verified to be consistent with previously proposed energy estimation tool extrapolated from actual hardware measurements. We finally evaluated Deep $k$-Means across several CNN models in terms of both compression ratio and energy consumption reduction, observing promising results without incurring accuracy loss. The code is available at https://github.com/Sandbox3aster/Deep-K-Means

研究动机与目标

  • 动机:由于现代 CNN 的参数规模和能耗占主导,需要对卷积层进行压缩。
  • 开发基于正则化的再训练框架,促进后续共享的聚类权重结构。
  • 提出一种逐行 k-means 参数共享方案,与能效硬件数据流对齐。
  • 引入能耗感知度量,以超越传统压缩比更好地估计 CNN 的能耗。

提出的方法

  • 通过将卷积层重塑为 W ∈ R^{s×N},将参数共享形式化为对其 N 列聚类到 K 个中心的 k-means,并应用于参数共享。
  • 引入一个光谱放宽的 k-means 正则化项,通过 E(W) + (lambda/2)[Tr(W^T W) - Tr(F^T W^T W F)] 将训练目标与聚类形成的辅助变量 F 键合,且 F^T F = I。
  • 通过 SGD 更新 W,梯度为 ∇E(W) + lambda W(I - F F^T),并使用 W 的 k-截断 SVD 更新 F。
  • 应用逐行 k-means 进行最终参数共享,以获得 K 个中心和权重分配索引,从而通过权重共享实现压缩。
  • 纳入能耗感知指标来估计 CNN 的能耗,包括计算成本(FAs)、权重与激活表示成本,以及数据移动的考虑。
  • 在 CR 和能耗指标上将 Deep k-Means 与多个基线进行比较,包括 GoogleNet / ImageNet 频谱,显示出有利的权衡。

实验结果

研究问题

  • RQ1光谱放宽的 k-means 正则化能否在再训练过程中将卷积权重引导至硬聚类分配?
  • RQ2卷积权重的逐行 k-means 参数共享是否在保持最小精度损失的前提下实现更高的压缩比?
  • RQ3所提出的能耗感知度量是否能有效代理不同 CNN 架构的硬件能耗?
  • RQ4与最先进的卷积压缩方法在标准模型(如 GoogLeNet、Wide ResNet)及能耗感知评估上的表现如何?

主要发现

  • 在相同压缩比下,Deep k-Means 相较于若干基线始终实现更高的准确性。
  • 光谱放宽正则化在再训练过程中近似促进硬聚类分配,有助于后续权重共享。
  • 逐行 k-means 参数共享实现对卷积层的有效压缩,并具备有利的能耗感知特征。
  • 能耗感知度量与硬件外推估计呈现出强相关性(在 AlexNet 上 R^2 高达 0.9931,在 GoogLeNet_v1 上为 0.9675)。
  • 在像 GoogleNet 这样的大模型上,低 CR(CR ≤ 3)的压缩几乎无损,在较高 CR 下的准确率影响较小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。