Skip to main content
QUICK REVIEW

[论文解读] Fix your classifier: the marginal value of training the last weight layer

Elad Hoffer, Itay Hubara|arXiv (Cornell University)|Jan 14, 2018
Stochastic Gradient Optimization Techniques被引用 60
一句话总结

本文表明用固定的正交变换(如 Hadamard)替换或固定 CNN 的最终线性分类器,能在保持可比准确率的同时显著减少可训练参数,并可能加速推理。

ABSTRACT

Neural networks are commonly used as models for classification for a wide variety of tasks. Typically, a learned affine transformation is placed at the end of such models, yielding a per-class value used for classification. This classifier can have a vast number of parameters, which grows linearly with the number of possible classes, thus requiring increasingly more resources. In this work we argue that this classifier can be fixed, up to a global scale constant, with little or no loss of accuracy for most tasks, allowing memory and computational benefits. Moreover, we show that by initializing the classifier with a Hadamard matrix we can speed up inference as well. We discuss the implications for current understanding of neural network models.

研究动机与目标

  • 激发在不牺牲准确性的前提下,降低 CNN 最终分类层的参数数量。
  • 提出将固定线性变换(正交、Hadamard)作为最终分类器并研究训练动力学。
  • 在 CIFAR-10/100、ImageNet 和语言模型上评估固定分类器以评估其普适性。
  • 分析在大规模数据集以及在受内存和计算约束的设备上的部署的实际含义。

提出的方法

  • 用固定的正交投影 Q(列 q_i 两两正交、范数为单位)替换最终仿射分类器中的可训练 W。
  • 将最终表示 x 归一化为单位 L2 范数,并引入一个标量 α 来缩放 softmax 输入,以及偏置 b。 s_i = softmax(α q_i·x̂ + b_i)。
  • 可选地使用一个固定的 Hadamard 矩阵 Ĥ(C×N),其元素为 ±1,作为最终分类器(y = Ĥ x̂ + b),以避免存储系数并简化计算。
  • 探索使用余弦角损失作为 softmax 的替代。
  • 在 CIFAR-10/100、ImageNet 上使用多种网络结构(ResNet、DenseNet、ShuffleNet),以及在 WikiText-2 上进行语言建模实验,以比较学习型分类器与固定分类器。

实验结果

研究问题

  • RQ1固定的最终分类器是否能在常见的 CNN 任务中保持与学习型分类器相当的准确性?
  • RQ2固定分类器对训练动力学、参数数量和内存使用的影响是什么?
  • RQ3Hadamard 或正交固定变换是否在不牺牲性能的情况下提供计算/内存方面的收益?
  • RQ4是否存在某些领域(如语言建模)因类别相关性或嵌入作用而使固定分类器效果较差?

主要发现

  • 固定分类器在 CIFAR-10/100 和 ImageNet 的多种架构上,验证集准确率几乎与学习型分类器相同。
  • 从最终层移除可训练参数显著减少可训练参数的比例(例如:CIFAR-10 的 ResNet56 为 0.07%;CIFAR-100 的 DenseNet 为 4.2%;ImageNet 的 ResNet50 为 8.01%;ImageNet 的 DenseNet169 为 11.76%;ImageNet 的 ShuffleNet 为 52.56%)。
  • 使用固定 Hadamard 矩阵作为最终分类器在某些配置中提供内存收益,并允许从最终层完全移除参数且不损失准确性。
  • 在语言建模(WikiText-2)中,固定的随机正交嵌入相比学习嵌入表现较差,但带固定变换的预训练 word2vec 嵌入将参数减少约 89%,且仅带来适度的困惑度下降。
  • 在 ImageNet 与 CIFAR 任务中,固定分类器以相似的训练/验证行为收敛,并且可以学习一个单一的尺度参数 α 以匹配性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。