Skip to main content
QUICK REVIEW

[论文解读] The Local Elasticity of Neural Networks

Hangfeng He, Weijie Su|arXiv (Cornell University)|Apr 30, 2020
Neural Networks and Applications参考文献 67被引用 15
一句话总结

本文引入了神经网络中的局部弹性概念——即在不同输入上进行梯度更新时,模型预测在其他输入上保持稳定的现象。通过神经正切核(NTK)的几何分析及一种新颖的相似性度量,作者在MNIST和CIFAR-10数据集上展示了鲁棒的聚类效果,证实了真实数据中存在局部弹性,并为深层网络行为提供了新见解。

ABSTRACT

This paper presents a phenomenon in neural networks that we refer to as local elasticity. Roughly speaking, a classifier is said to be locally elastic if its prediction at a feature vector x' is not significantly perturbed, after the classifier is updated via stochastic gradient descent at a (labeled) feature vector x that is dissimilar to x' in a certain sense. This phenomenon is shown to persist for neural networks with nonlinear activation functions through extensive simulations on synthetic datasets, whereas this is not the case for linear classifiers. In addition, we offer a geometric interpretation of local elasticity using the neural tangent kernel (Jacot et al., 2018). Building on top of local elasticity, we obtain pairwise similarity measures between feature vectors, which can be used for clustering in conjunction with K-means. The effectiveness of the clustering algorithm on the MNIST and CIFAR-10 datasets in turn confirms the hypothesis of local elasticity of neural networks on real-life data. Finally, we discuss implications of local elasticity to shed light on several intriguing aspects of deep neural networks.

研究动机与目标

  • 探究神经网络在对与目标输入不相似的输入进行更新后,是否仍能在该目标输入上保持预测稳定。
  • 利用神经正切核(NTK)建立对这种稳定性的几何理解。
  • 基于局部弹性,推导特征向量之间的成对相似性度量,用于下游聚类任务。
  • 评估所提出的相似性度量在真实数据集(如MNIST和CIFAR-10)上的聚类性能。
  • 探讨局部弹性对理解深层神经网络泛化能力与归纳偏置的更广泛影响。

提出的方法

  • 提出局部弹性的概念,定义为:在与目标输入x不相似的x'处进行模型更新后,x'处预测值的最小变化。
  • 利用神经正切核(NTK)为局部弹性提供几何解释,将其与模型的隐式归纳偏置联系起来。
  • 基于梯度更新下预测变化的大小,构建特征向量之间的成对相似性度量。
  • 将该相似性度量应用于K-means聚类流程,以评估其在MNIST和CIFAR-10上的性能。
  • 在合成数据集上进行大量模拟实验,验证非线性网络中的局部弹性,与线性分类器进行对比。
  • 分析SGD更新下预测的稳定性,以实证确认局部弹性的持续存在。

实验结果

研究问题

  • RQ1神经网络在对与目标输入x不相似的输入x进行更新后,是否仍能在特征向量x'处保持预测稳定?
  • RQ2非线性神经网络与线性分类器在局部弹性方面有何差异?
  • RQ3能否利用神经正切核对局部弹性进行形式化并提供几何解释?
  • RQ4基于局部弹性的相似性度量是否能提升真实世界数据集上的聚类性能?
  • RQ5局部弹性为理解深度学习的泛化能力与归纳偏置提供了哪些更广泛的洞见?

主要发现

  • 通过合成数据集模拟实验,证实局部弹性存在于具有非线性激活函数的神经网络中,但在线性分类器中不成立。
  • 神经正切核为解释宽深层网络中局部弹性的出现提供了几何框架。
  • 基于局部弹性的成对相似性度量在与K-means结合使用时,显著提升了MNIST和CIFAR-10上的聚类性能。
  • 在不相似输入上进行SGD更新时预测的稳定性,表明深层网络中存在一种隐式归纳偏置。
  • 局部弹性在真实世界数据中持续存在,表明神经网络的泛化不仅依赖于局部平滑性,还依赖于对远距离点更新的鲁棒性。
  • 该现象表明,神经网络可能隐式学习到一种结构化且稳定的特征表示,从而支持超越局部插值的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。