Skip to main content
QUICK REVIEW

[论文解读] Sparsity Normalization: Stabilizing the Expected Outputs of Deep Networks.

Joonyoung Yi, Juhyuk Lee|arXiv (Cornell University)|Jun 1, 2019
Domain Adaptation and Few-Shot Learning被引用 2
一句话总结

本文提出了稀疏性归一化(Sparsity Normalization, SN),一种通过解决由缺失值或输入分布方差引起的实例级稀疏性异质性问题,从而稳定深度网络输出的技术。通过基于稀疏性感知统计量对激活值进行归一化,SN 减少了非线性函数的饱和现象,提升了训练稳定性,在 Movielens 100k 和 1M 数据集上实现了最先进性能,且仅需对网络架构进行微小修改。

ABSTRACT

The learning of deep models, in which a numerous of parameters are superimposed, is known to be a fairly sensitive process and should be carefully done through a combination of several techniques that can help to stabilize it. We introduce an additional challenge that has never been explicitly studied: the heterogeneity of sparsity at the instance level due to missing values or the innate nature of the input distribution. We confirm experimentally on the widely used benchmark datasets that this variable sparsity problem makes the output statistics of neurons unstable and makes the learning process more difficult by saturating non-linearities. We also provide the analysis of this phenomenon, and based on our analysis, we present a simple technique to prevent this issue, referred to as Sparsity Normalization (SN). Finally, we show that the performance can be significantly improved with SN on certain popular benchmark datasets, or that similar performance can be achieved with lower capacity. Especially focusing on the collaborative filtering problem where the variable sparsity issue has been completely ignored, we achieve new state-of-the-art results on Movielens 100k and 1M datasets, by simply applying Sparsity Normalization (SN).

研究动机与目标

  • 解决由于缺失输入或数据分布特性导致的实例级稀疏性可变性所引起的深度网络输出不稳定问题。
  • 识别并分析稀疏性异质性对激活统计量和训练动态的负面影响。
  • 提出一种简单但有效的归一化技术,以在不同稀疏度水平下稳定神经元输出。
  • 证明 SN 在基准数据集上的性能提升,特别是在常被忽视稀疏性的协同过滤任务中。

提出的方法

  • 稀疏性归一化根据每个输入样本中非零元素的数量,计算实例特定的归一化统计量。
  • 对于每个批次,SN 仅基于非零元素计算均值和标准差,对每个神经元的激活值进行减去均值并除以标准差的归一化处理。
  • 该归一化按样本应用,确保每个输入的稀疏度水平在激活缩放中被显式考虑。
  • 该方法轻量化且与标准深度学习框架兼容,对现有架构的修改极少。
  • SN 在非线性激活函数之前应用,以防止极端稀疏性导致的饱和。
  • 该技术在多个基准数据集上进行了经验验证,包括用于协同过滤的 Movielens 数据集。

实验结果

研究问题

  • RQ1实例级稀疏性异质性在多大程度上影响深度网络激活和训练动态的稳定性?
  • RQ2稀疏性引起的不稳定性在多大程度上降低了标准基准数据集上的模型性能?
  • RQ3一种能考虑稀疏性的简单归一化技术是否能提升训练稳定性和最终性能?
  • RQ4稀疏性归一化是否能在仅做最小架构修改的前提下,于协同过滤任务中实现最先进结果?
  • RQ5在使用稀疏性归一化时,是否也能用容量更低的模型达到类似性能?

主要发现

  • 稀疏性归一化在 Movielens 100k 和 1M 数据集上显著提升了模型性能,实现了新的最先进结果。
  • 该方法通过减少因稀疏性异质性导致的激活方差,稳定了神经元输出,尤其在协同过滤设置中效果显著。
  • SN 使低容量模型也能达到与更大模型相当的性能,表明样本效率得到提升。
  • 该技术有效缓解了稀疏输入导致的非线性函数饱和问题,从而实现更稳定高效的训练。
  • 实证结果证实,稀疏性异质性是此前被忽视但对深度学习稳定性至关重要的因素,尤其是在推荐系统中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。