[论文解读] Convergent Learning: Do different neural networks learn the same representations?
本文研究了从随机初始化训练的不同神经网络是否收敛到相似的内部表征,提出一种通过二分匹配、稀疏预测和谱聚类对齐网络间特征的方法。主要发现表明,尽管部分特征在不同网络中一致学习到,但另一些特征则不然,表征是局部编码与轻微分布式编码的混合,尽管单个神经元存在差异,激活统计量在不同网络间仍趋于收敛。
Recent success in training deep neural networks have prompted active investigation into the features learned on their intermediate layers. Such research is difficult because it requires making sense of non-linear computations performed by millions of parameters, but valuable because it increases our ability to understand current models and create improved versions of them. In this paper we investigate the extent to which neural networks exhibit what we call convergent learning, which is when the representations learned by multiple nets converge to a set of features which are either individually similar between networks or where subsets of features span similar low-dimensional spaces. We propose a specific method of probing representations: training multiple networks and then comparing and contrasting their individual, learned representations at the level of neurons or groups of neurons. We begin research into this question using three techniques to approximately align different neural networks on a feature level: a bipartite matching approach that makes one-to-one assignments between neurons, a sparse prediction approach that finds one-to-many mappings, and a spectral clustering approach that finds many-to-many mappings. This initial investigation reveals a few previously unknown properties of neural networks, and we argue that future research into the question of convergent learning will yield many more. The insights described here include (1) that some features are learned reliably in multiple networks, yet other features are not consistently learned; (2) that units learn to span low-dimensional subspaces and, while these subspaces are common to multiple networks, the specific basis vectors learned are not; (3) that the representation codes show evidence of being a mix between a local code and slightly, but not fully, distributed codes across multiple units.
研究动机与目标
- 探究在相同任务上从随机初始化训练的不同神经网络是否学习到相似的内部表征,这一现象被称为收敛学习。
- 开发并评估在单个神经元或神经元组层面,对独立训练的深层神经网络进行表征对齐的方法。
- 理解所学习的特征在多大程度上是共享的、唯一的或具有结构的,特别是从子空间结构和编码方案的角度。
- 评估在不同相似性度量(如相关性和互信息)下特征相似性的鲁棒性。
- 探讨基于共享与独特表征在模型压缩、集成学习和训练效率方面的潜在影响。
提出的方法
- 提出一种二分匹配方法,基于特征相似性在不同网络的神经元之间建立一一对应关系。
- 引入稀疏预测与聚类方法,识别神经元之间的一对多映射关系,使用LASSO回归从另一网络的子集预测其表征。
- 应用谱聚类通过识别网络间共享的低维子空间来检测多对多关系。
- 使用去卷积可视化和激活最大化方法,解释并验证图像识别背景下所学习特征的可解释性。
- 采用多种相似性度量(线性相关性和估计的互信息)评估神经元对应关系的鲁棒性。
- 将对齐技术应用于在ImageNet上训练的改进AlexNet架构,比较多个独立训练网络之间的表征。
实验结果
研究问题
- RQ1从随机初始化训练的不同神经网络在多大程度上学习到相同的内部表征?
- RQ2是否可以在独立训练的网络之间实现一一对应神经元对齐?这种对齐在不同相似性度量下有多稳健?
- RQ3共享表征是否以低维子空间形式组织?尽管基向量不同,这些子空间在不同网络间是否具有稳定的几何结构?
- RQ4表征的编码方案(局部编码与分布式编码)在不同网络中如何表现?
- RQ5尽管单个神经元激活值存在显著差异,不同网络之间的平均激活分布是否趋于收敛?
主要发现
- 部分特征在多个独立训练的网络中可靠地被学习到,而另一些特征则未被一致学习,表明表征学习存在部分收敛。
- 不同网络中的神经元学习到相似的低维子空间,但这些子空间的具体基向量不同,表明存在共享的结构组织,但参数化不完全相同。
- 表征编码表现出局部编码(单神经元响应)与轻微分布式编码(多个神经元共同贡献)的混合特征,未发现完全分布式表征的证据。
- 尽管同一网络内单个神经元的激活值存在显著差异,不同网络之间的平均激活分布仍收敛到几乎相同的统计分布。
- 表征相似性对不同相似性度量具有鲁棒性,线性相关性和互信息均得出一致的对齐结果。
- 研究结果表明,可通过利用公共子空间和去重冗余特征,将共享表征应用于模型压缩、集成构建以及高效的数据并行训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。