[论文解读] What is being transferred in transfer learning?
本文研究预训练模型的哪些方面能够在多样化的目标领域实现迁移,区分特征重用与低级别统计,并分析损失景观的盆地和模块敏感性。
One desired capability for machines is the ability to transfer their knowledge of one domain to another where data is (usually) scarce. Despite ample adaptation of transfer learning in various deep learning applications, we yet do not understand what enables a successful transfer and which part of the network is responsible for that. In this paper, we provide new tools and analyses to address these fundamental questions. Through a series of analyses on transferring to block-shuffled images, we separate the effect of feature reuse from learning low-level statistics of data and show that some benefit of transfer learning comes from the latter. We present that when training from pre-trained weights, the model stays in the same basin in the loss landscape and different instances of such model are similar in feature space and close in parameter space.
研究动机与目标
- 理解在源域与目标域之间实现成功迁移的决定因素。
- 量化特征重用和底层数据统计在迁移性能中的作用。
- 表征使用预训练权重训练的模型与随机初始化模型之间的相似性。
- 识别网络模块如何影响迁移与鲁棒性。
- 展示从预训练检查点进行微调的实践意义。
提出的方法
- 对下游图像块进行置乱,以将特征重用与低级统计分离。
- 在多个目标域上比较预训练初始化模型(P)与随机初始化模型(RI)。
- 使用中心化核对齐(CKA)来衡量各层之间的特征相似性。
- 分析模型实例之间的参数空间距离(L2)。
- 在模型参数之间进行插值,以研究损失景观的盆地和障碍。
- 定义并评估模块关键性,以确定层级对扰动的敏感性。
实验结果
研究问题
- RQ1迁移收益中有多少来自重用已学习的特征,而非利用底层统计?
- RQ2在迁移到新领域时,预训练模型与随机初始化模型在特征空间、参数空间和损失景观上有何不同?
- RQ3哪些网络模块对通用迁移与任务特定迁移行为负责?
- RQ4是否可以从较早的预训练检查点微调而不损失目标域的准确性?
- RQ5在迁移时,预训练模型与随机初始化模型是否处于相同的损失盆地?
主要发现
- 特征重用很重要,但并非唯一因素;低级统计也对迁移收益有贡献,特别是在优化速度上。
- 两个预训练模型实例更易犯相似错误,且参数空间的接近度更高、特征相似性更大,相较于随机初始化的对。
- 预训练模型处于同一个平坦的损失盆地,而随机初始化模型在解之间存在障碍。
- 较低层往往编码通用特征,而较高层对扰动更敏感。
- 从预训练权重初始化的模型可以从更早的检查点进行微调,而不丢失目标域的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。