[论文解读] Assaying Out-Of-Distribution Generalization in Transfer Learning
本文进行了一项大规模的统一研究,评估迁移学习中的OOD鲁棒性,考察体系结构、微调和数据增强如何影响跨172个ID–OOD数据对、3.1万模型和9种架构的OOD性能。
Since out-of-distribution generalization is a generally ill-posed problem, various proxy targets (e.g., calibration, adversarial robustness, algorithmic corruptions, invariance across shifts) were studied across different research programs resulting in different recommendations. While sharing the same aspirational goal, these approaches have never been tested under the same experimental conditions on real data. In this paper, we take a unified view of previous work, highlighting message discrepancies that we address empirically, and providing recommendations on how to measure the robustness of a model and how to improve it. To this end, we collect 172 publicly available dataset pairs for training and out-of-distribution evaluation of accuracy, calibration error, adversarial attacks, environment invariance, and synthetic corruptions. We fine-tune over 31k networks, from nine different architectures in the many- and few-shot setting. Our findings confirm that in- and out-of-distribution accuracies tend to increase jointly, but show that their relation is largely dataset-dependent, and in general more nuanced and more complex than posited by previous, smaller scale studies.
研究动机与目标
- 在现实下游任务中,推动对迁移学习中OOD鲁棒性进行统一评估的必要性。
- 在一致的实验协议下,系统性比较架构类型、微调策略和数据增强方法。
- 量化同分布准确率与跨越多样分布的OOD性能之间的关系。
- 评估除ID准确率之外的常用鲁棒性指标在预测OOD鲁棒性方面的信息量。
提出的方法
- 从36个数据集组成172对(ID, OOD)数据集,跨越10个具有共享标签的任务。
- 在固定的下游迁移协议和单GPU训练下,对9种体系结构进行3.1万模型的微调。
- 使用六种指标评估ID、OOD和损坏数据,包括准确率、负对数似然、校准误差和对抗鲁棒性等。
- 比较两种微调策略(全模型 vs. 仅头部)以及三种数据增强方案(无增强、RandAugment、AugMix)。
- 分析度量在ID到OOD数据上的迁移性,以及结果对数据集/任务迁移的依赖性。
实验结果
研究问题
- RQ1在仅有单一数据集时,哪些是OOD鲁棒性的良好代理指标?
- RQ2架构选择和微调策略如何影响迁移学习中对分布漂移的鲁棒性?
- RQ3除ID准确率外的常见鲁棒性指标是否提供关于OOD性能的有意义信息?
- RQ4是否在跨任务中存在ID与OOD准确率之间的一致线性关系,还是结果取决于任务?
- RQ5上游(如ImageNet)鲁棒性发现能否很好地转化为下游OOD鲁棒性?
主要发现
- ID准确率是对OOD鲁棒性在各任务或漂移中的最强预测因子。
- 在保留的OOD数据上评估准确率可以更强地预测下游OOD性能。
- 在ID数据上的校准与不变性指标在没有OOD留出数据的情况下很难迁移到OOD设置,而在某些条件下,不变性度量可以与校准相关。
- 在调整ID准确率后,合成腐蚀对自然分布漂移的预测价值有限,尽管腐蚀校准可以为OOD校准提供信息。
- 数据增强在ID和OOD性能上均有提升,特别是在数据量较少的情形;在充分数据下,全面微调通常优于仅头部微调,而在数据稀缺时,仅头部微调可能更有利。
- 架构选择(例如ViT变体对比DeiT/Swin)会影响OOD性能;为迁移优化的模型在ID与OOD之间的差距可能不同,表明架构对鲁棒性很关键。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。