[论文解读] Intrinsic dimension of data representations in deep neural networks
这篇论文表明,经过训练的卷积神经网络(CNN)的表示位于低维、弯曲流形上,其内在维度(ID)远小于层大小;ID在早期层上升,然后稳步下降,最后一层的ID能够预测测试准确率。
Deep neural networks progressively transform their inputs across multiple processing layers. What are the geometrical properties of the representations learned by these networks? Here we study the intrinsic dimensionality (ID) of data-representations, i.e. the minimal number of parameters needed to describe a representation. We find that, in a trained network, the ID is orders of magnitude smaller than the number of units in each layer. Across layers, the ID first increases and then progressively decreases in the final layers. Remarkably, the ID of the last hidden layer predicts classification accuracy on the test set. These results can neither be found by linear dimensionality estimates (e.g., with principal component analysis), nor in representations that had been artificially linearized. They are neither found in untrained networks, nor in networks that are trained on randomized labels. This suggests that neural networks that can generalize are those that transform the data into low-dimensional, but not necessarily flat manifolds.
研究动机与目标
- 量化在 CNN 的各层中数据表示的内在维度随层的变化情况。
- 确定经过训练的表示是否位于低维、弯曲的流形上,而非线性子空间。
- 研究最后隐藏层的 ID 与泛化性能之间的关系。
- 评估训练网络与未训练网络以及使用随机标签训练的网络之间的 ID 曲线是否存在差异。
提出的方法
- 使用 TwoNN,这是一种基于最近邻一、二距离比值的全局内在维度估计器,来估计层激活的ID。
- 将 TwoNN 应用于多种架构(VGG、AlexNet、ResNet)在不同层和数据集上的估计。
- 将 ID 估计与基于 PCA 的线性维度(PC-ID)进行比较,以评估线性与非线性结构。
- 执行子采样分析以检验 ID 估计的尺度不变性和鲁棒性。
- 通过在 CIFAR-10 与 MNIST 变体上的训练过程跟踪 ID 演变来分析训练动力学。
- 测试在随机标签上训练的网络以辨别泛化对 ID 曲线的影响。
实验结果
研究问题
- RQ1CNN 的内在维度如何在各层之间变化?
- RQ2CNN 表现中的数据流形是否低维且弯曲,而非平坦?
- RQ3最后隐藏层的 ID 是否对网络的泛化性能具有预测性?
- RQ4未训练的网络或在随机标签下训练的网络是否显示与标准训练网络相同的 ID 曲线?
- RQ5在这些表示中,基于 PCA 的线性维度估计与非线性内在维度估计相比有何差异?
主要发现
- CNN 的数据表示位于低维流形上,ID 远小于层嵌入维度(ED)。
- 在不同层中,ID 通常在早期层增加,然后单调下降至最终隐藏层。
- 最后隐藏层的 ID 能强烈预测测试集准确率(ID 越低,预测性越高)。
- 来自 TwoNN 的 ID 估计揭示了弯曲的低维流形,PCA(PC-ID)无法捕捉,PC-ID 要高得多。
- 随机初始化的网络显示平坦的 ID 曲线,而在随机标签下训练的网络则不呈现典型的拱形 ID 模式,表明 ID 的下降与泛化相关。
- 在相对深度视角下,ID 趋势在不同架构(VGG、AlexNet、ResNet)之间大体一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。