[论文解读] Transfer Learning of Linear Regression with Multiple Pretrained Models: Benefiting from More Pretrained Models via Overparameterization Debiasing
本论文将线性迁移学习扩展到多个过度参数化的预训练模型,分析在何时更多模型有帮助,以及提出去偏置技术以对抗过度参数化偏差,从而实现一致的迁移性能。
We study transfer learning for a linear regression task using several least-squares pretrained models that can be overparameterized. We formulate the target learning task as optimization that minimizes squared errors on the target dataset with penalty on the distance of the learned model from the pretrained models. We analytically formulate the test error of the learned target model and provide the corresponding empirical evaluations. Our results elucidate when using more pretrained models can improve transfer learning. Specifically, if the pretrained models are overparameterized, using sufficiently many of them is important for beneficial transfer learning. However, the learning may be compromised by overparameterization bias of pretrained models, i.e., the minimum $\ell_2$-norm solution's restriction to a small subspace spanned by the training examples in the high-dimensional parameter space. We propose a simple debiasing via multiplicative correction factor that can reduce the overparameterization bias and leverage more pretrained models to learn a target predictor.
研究动机与目标
- 在有多种预训练模型可用时,激发并分析线性回归的迁移学习。
- 表征预训练模型的过度参数化如何影响迁移收益,以及更多模型何时有帮助或有害。
- 开发去偏置技术以缓解过度参数化偏差,充分利用大量的预训练模型。
提出的方法
- 将目标任务学习表述为在平方误差最小化的同时对与预训练模型的距离设定惩罚项(Eq. 6)。
- 在合理假设下推导目标解的闭式形式(Eq. 7)。
- 使用随机矩阵理论分析渐近测试误差(Theorem 4.4,Eqs. 8–11)。
- 表征预训练模型数量 m 及其参数化对迁移性能的影响(Theorem 5.2,Corollary 5.1)。
- 提出通过缩放任务关系运算符进行过度参数化去偏置以降低偏差(Section 5.4)。
- 讨论一致性/不稳定性:当 m 增大时,未过度参数化的预训练模型可实现一致迁移,而在未去偏置的情况下,过度参数化模型可能导致不一致性(Theorems 5.4)。
实验结果
研究问题
- RQ1使用多种预训练模型来完成目标线性回归任务有多大益处?
- RQ2预训练模型的过度参数化如何影响使用更多模型的收益?
- RQ3当使用多种过度参数化的预训练模型时,去偏置方法是否能恢复一致性并提升迁移学习效果?
- RQ4在结合多种预训练模型时,源-目标任务关系运算符之间存在何种交互?
主要发现
- 多模型预训练可超过单模型迁移学习的性能,在某些参数化范围内甚至可解决负迁移问题。
- 增加预训练模型带来的有益增益在模型数量较多时可能减弱,但去偏置通过缓解过度参数化偏差可以延长其有效性。
- 若不进行去偏置,随着 m 增大,过度参数化偏差会导致迁移预测不一致性。
- 在假设 3.1 下存在闭式 TL 解,并通过聚合单模型效应的矩阵(Gamma_TL,infty 术语)获得洞见。
- 最佳迁移超参数随预训练模型数量和数据情形而定,与岭回归作为基线相关(Theorem D.1 与 Corollary 5.1)。
- 所提去偏置方法将关系运算符按源端过度参数化水平的逆进行缩放,从而提升一致性并更好地利用更多的预训练模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。