QUICK REVIEW

[论文解读] What Do Neural Networks Learn When Trained With Random Labels?

Hartmut Maennel, Ibrahim Alabdulmohsin|arXiv (Cornell University)|Jun 18, 2020

Machine Learning and Data Classification参考文献 53被引用 29

一句话总结

本文研究了在随机标签图像上训练的深度神经网络学习到了什么，揭示了网络参数主成分与数据分布之间存在对齐现象。尽管缺乏语义信号，这种对齐仍能实现正向迁移：随机标签预训练可加速下游微调，即使在控制权重缩放后依然如此，但在某些设置下，深层网络的特化可能掩盖这一优势。

ABSTRACT

We study deep neural networks (DNNs) trained on natural image data with entirely random labels. Despite its popularity in the literature, where it is often used to study memorization, generalization, and other phenomena, little is known about what DNNs learn in this setting. In this paper, we show analytically for convolutional and fully connected networks that an alignment between the principal components of network parameters and data takes place when training with random labels. We study this alignment effect by investigating neural networks pre-trained on randomly labelled image data and subsequently fine-tuned on disjoint datasets with random or real labels. We show how this alignment produces a positive transfer: networks pre-trained with random labels train faster downstream compared to training from scratch even after accounting for simple effects, such as weight scaling. We analyze how competing effects, such as specialization at later layers, may hide the positive transfer. These effects are studied in several network architectures, including VGG16 and ResNet18, on CIFAR10 and ImageNet.

研究动机与目标

理解当使用随机标签进行训练时，深度神经网络学习到了什么，这一设置常用于研究记忆化与泛化问题。
解释一个反直觉现象：为何在随机标签上进行预训练仍能加速下游微调。
将正向迁移与权重缩放等混淆因素分离，并分析由于深层网络特化而引发负面效应的条件。
研究网络架构深度、宽度及超参数在随机标签训练网络行为中的作用。
为参数-数据对齐作为随机标签训练中的关键机制，提供分析与实证证据。

提出的方法

在全连接和卷积网络中，对随机标签训练下的网络权重主成分与输入数据之间的对齐关系进行理论推导。
在图像数据集上使用随机标签预训练模型，然后在不相交的数据集上进行微调，使用真实标签或随机标签，以衡量迁移效果。
通过层权重矩阵的特征分解提取主成分，并评估其在下游任务中作为滤波器的性能。
比较以下四种情况下的微调性能：(1) 全部预训练权重，(2) 仅使用权重的前16个主成分，(3) 随机初始化，(4) 使用最小特征值对应的特征向量，以隔离对齐效应。
在预训练和微调过程中监控各层的神经激活模式，检测上层网络的特化现象及容量下降。
系统性地改变学习率、初始化尺度、宽度、深度和训练迭代次数等超参数，以验证研究结果的鲁棒性。

实验结果

研究问题

RQ1当在带有随机标签的图像上训练时，深度神经网络学习到了哪些结构特性？
RQ2为何在无语义信号的情况下，随机标签预训练仍能加速下游微调？
RQ3在随机标签训练过程中，参数-数据对齐是如何形成的，它在迁移学习中起到什么作用？
RQ4在何种条件下，随机标签预训练会导致负向迁移，其成因是什么？
RQ5深层网络特化在多大程度上降低了网络在下游任务中的有效容量？

主要发现

即使在无任何语义信号的情况下，随机标签预训练仍能实现网络权重主成分与数据分布之间的显著对齐。
这种对齐实现了正向迁移：在控制权重缩放后，随机标签预训练的网络仍比随机初始化微调得更快。
仅使用卷积层权重的前16个主成分即可达到与随机初始化相当的性能，表明所学结构具有实际意义。
当用最小特征值对应的特征向量替换顶部特征向量时，性能显著下降，证实该对齐并非随机。
上层网络的特化——表现为切换到下游任务后激活频率急剧下降——可能掩盖正向迁移并降低有效容量。
正向迁移效应在不同架构（VGG16、ResNet18）、数据集（CIFAR10、ImageNet）和超参数设置下均表现稳健，但在特定初始化和标签配置下会出现负面效应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。