[论文解读] Rethinking the Hyperparameters for Fine-tuning
本论文重新评估对预训练的 ImageNet 模型进行微调的超参数,显示动量、有效学习率和正则化会与领域相似性相互作用,不应作为固定的默认值。它提供了通过将最优 ELR 与源-目标领域相似性联系起来来减少超参数搜索的指导,并强调何时参考基准的正则化有帮助或有害。
Fine-tuning from pre-trained ImageNet models has become the de-facto standard for various computer vision tasks. Current practices for fine-tuning typically involve selecting an ad-hoc choice of hyperparameters and keeping them fixed to values normally used for training from scratch. This paper re-examines several common practices of setting hyperparameters for fine-tuning. Our findings are based on extensive empirical evaluation for fine-tuning on various transfer learning benchmarks. (1) While prior works have thoroughly investigated learning rate and batch size, momentum for fine-tuning is a relatively unexplored parameter. We find that the value of momentum also affects fine-tuning performance and connect it with previous theoretical findings. (2) Optimal hyperparameters for fine-tuning, in particular, the effective learning rate, are not only dataset dependent but also sensitive to the similarity between the source domain and target domain. This is in contrast to hyperparameters for training from scratch. (3) Reference-based regularization that keeps models close to the initial model does not necessarily apply for "dissimilar" datasets. Our findings challenge common practices of fine-tuning and encourages deep learning practitioners to rethink the hyperparameters for fine-tuning.
研究动机与目标
- 质疑在对预训练视觉模型进行微调时固定超参数的有效性。
- 研究动量如何影响在与源领域相似度不同的数据集上的微调性能。
- 考察有效学习率的作用及其对领域相似性的依赖。
- 评估基于参考的正则化在相似和不相似领域的微调是否有改进。
提出的方法
- 在七个迁移学习数据集上对使用 ResNet-101-V2 的微调进行系统性的超参数搜索。
- 改变学习率、动量和权重衰减;测量 Top-1 验证误差。
- 分析微调中动量与有效学习率之间的相互作用。
- 在各数据集上比较标准 L2 正则化与 L2-SP(基于参考的)正则化。
- 研究领域相似性及其与最优 ELR 和正则化效果之间的关系。
实验结果
研究问题
- RQ1动量如何影响在与源领域相似性不同的数据集上的微调性能?
- RQ2在微调中,最优有效学习率如何随源域与目标域的相似性变化?
- RQ3基于参考的正则化是否在相似与不相似的领域中始终有助于微调?
- RQ4是否可以使用领域相似性来预测或约束 ELR,以实现高效的超参数搜索?
主要发现
- 在相似域上动量最优为 0,在不相似域上为 0.9,这挑战了固定动量的默认设定。
- 最优的有效学习率取决于源域与目标域之间的相似性,固定在 ELR 上比单独的原始学习率更能解释性能差异。
- 将权重保持在初始模型附近的正则化(L2-SP)并不普遍提升微调,特别是在不相似的数据集上;简单的权重衰减在很多情况下也能获得类似的效果。
- 超参数是耦合的;改变动量会改变 ELR 和学习率的搜索范围,使 ELR 成为微调成功的核心因素。
- 领域相似性分数与最优 ELR 的规模相关联,从而提供一种通过参考相似/不相似的源域来限制超参数搜索的实用策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。