Skip to main content
QUICK REVIEW

[论文解读] Similarity of Neural Network Representations Revisited

Simon Kornblith, Mohammad Norouzi|arXiv (Cornell University)|May 1, 2019
Neural Networks and Applications被引用 431
一句话总结

论文引入中心核对齐(CKA) 作为一种鲁棒的、非可逆变换不变的度量,用于比较神经网络表示,结果表明它能可靠地匹配随机初始化和不同架构的对应层,和像CCA等以往方法不同。

ABSTRACT

Recent work has sought to understand the behavior of neural networks by comparing representations between layers and between different trained models. We examine methods for comparing neural network representations based on canonical correlation analysis (CCA). We show that CCA belongs to a family of statistics for measuring multivariate similarity, but that neither CCA nor any other statistic that is invariant to invertible linear transformation can measure meaningful similarities between representations of higher dimension than the number of data points. We introduce a similarity index that measures the relationship between representational similarity matrices and does not suffer from this limitation. This similarity index is equivalent to centered kernel alignment (CKA) and is also closely connected to CCA. Unlike CCA, CKA can reliably identify correspondences between representations in networks trained from different initializations.

研究动机与目标

  • 为测量神经网络表示之间的相似性提供一个有原则的方法的动机。
  • 批判性分析现有的相似性度量及其不变量特性。
  • 引入 centered kernel alignment (CKA),并将其与 CCA 和回归联系起来。
  • 展示 CKA 在不同初始化和架构下识别层对应关系的能力。
  • 探索表示相似性如何随宽度、深度以及数据集的变化而演化。

提出的方法

  • 给出相对于不变量(正交、可逆线性、等方缩放)的相似性指标的定义与形式化。
  • 提出 Centered Kernel Alignment (CKA) 作为一种可扩展、不变量的相似性度量,使用 HSIC 归一化。
  • 将线性 CKA 与 CCA 和线性回归联系起来,并讨论核的选择(线性和 RBF)。
  • 在各种不变量下,将 CKA 与现有方法(CCA、SVCCA、PWCCA、线性回归、HSIC)进行比较。
  • 在 CIFAR-10/ CIFAR-100 上使用 CNN 和 Transformer,对层对应、架构深度/宽度的影响以及跨数据集的相似性进行实证评估。

实验结果

研究问题

  • RQ1CKA 能否在不同随机初始化训练的网络之间可靠地识别层对应关系?
  • RQ2宽度、深度以及架构差异如何影响以 CKA 测量的表示相似性?
  • RQ3早期层表示在跨数据集时是否比后期层更相似?
  • RQ4在识别跨架构的对应关系方面,CKA 与早前的相似性度量(CCA、SVCCA、PWCCA、线性回归)相比有何不同?
  • RQ5在神经网络表示中,CKA捕获的共享子空间的几何解释是什么?

主要发现

  • CKA 在随机初始化不同、宽度不同的网络之间持续识别层之间的对应关系,在这方面优于 CCA、SVCCA 和 PWCCA。
  • 增加网络宽度会提高跨网络的表示相似性,且早期层用更少的通道就达到饱和的相似性,而后期层需要更多通道。
  • 早期层表示往往比后期层对数据集更不敏感;CIFAR-10 和 CIFAR-100 的表示在早期层相似,但在后期层出现分化。
  • CKA 能揭示架构结构,例如 ResNet 的网格状模式和与特征图尺度相关的层组相似性,这是其他指标所没有的。
  • 线性 CKA 在某些变换下与 CCA 对齐,同时对扰动具有鲁棒性并避免了某些多变量统计量的反演局限性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。