[论文解读] Improving out-of-distribution generalization via multi-task self-supervised pretraining
本文提出一种多任务自监督学习(SSL)方法,引入新型掩码任务——预测戈贝尔滤波器组的响应,同时结合旋转和对比学习,以提升计算机视觉中的分布外(OOD)泛化能力。该方法在分布外泛化性能上优于监督预训练,尤其在大领域偏移情况下表现更优,且可与领域泛化方法(如不变风险最小化,IRM)结合,进一步提升性能。
Self-supervised feature representations have been shown to be useful for supervised classification, few-shot learning, and adversarial robustness. We show that features obtained using self-supervised learning are comparable to, or better than, supervised learning for domain generalization in computer vision. We introduce a new self-supervised pretext task of predicting responses to Gabor filter banks and demonstrate that multi-task learning of compatible pretext tasks improves domain generalization performance as compared to training individual tasks alone. Features learnt through self-supervision obtain better generalization to unseen domains when compared to their supervised counterpart when there is a larger domain shift between training and test distributions and even show better localization ability for objects of interest. Self-supervised feature representations can also be combined with other domain generalization methods to further boost performance.
研究动机与目标
- 为解决计算机视觉中分布外(OOD)泛化问题,即模型在测试数据分布与训练分布不同时表现不佳的问题。
- 探究自监督特征表示是否能在领域泛化任务中达到甚至超越监督预训练的性能。
- 评估兼容的掩码任务在多任务自监督学习中对提升领域偏移鲁棒性的有效性。
- 探索自监督表示与现有领域泛化技术(如不变风险最小化,IRM)的兼容性。
提出的方法
- 作者提出一种新型自监督掩码任务,即预测戈贝尔滤波器组的响应,该任务可捕捉对领域泛化有益的纹理和边缘信息。
- 在多任务训练设置中,将该任务与标准SSL掩码任务(如旋转预测和对比学习,例如MoCo风格)相结合。
- 多任务SSL框架在无标签数据上联合训练共享特征编码器,通过多个掩码任务同时优化,以促进学习解耦且领域不变的表示。
- 该方法对所有任务使用单一编码器头,通过反向传播在所有掩码目标之间共享更新特征。
- 学习到的自监督特征通过标准经验风险最小化(ERM)进行微调,或与IRM结合用于领域泛化。
- 在PACS和VLCS基准上进行实验,通过在保留领域上的评估来衡量OOD泛化性能。
实验结果
研究问题
- RQ1与标准基准上的监督预训练相比,多任务自监督学习是否能提升分布外泛化能力?
- RQ2所提出的戈贝尔滤波器组掩码任务是否在大领域偏移下对领域泛化有显著贡献?
- RQ3自监督表示能否有效与现有领域泛化方法(如IRM)结合,以进一步提升OOD性能?
- RQ4当在低资源、分布外领域上微调时,自监督特征的性能与监督特征相比如何?
主要发现
- 在PACS基准上,采用多任务掩码任务(R+G+DC)的自监督学习在OOD泛化上的平均准确率达到65.86%,优于监督基线(60.44%)的ERM设置。
- 在VLCS基准上,自监督特征在IRM设置下达到平均准确率68.46%,高于监督预训练的67.76%,表现持续提升。
- 在PACS的Sketch领域中,自监督学习在IRM设置下达到62.66%的准确率,显著优于监督基线的46.50%。
- 在VLCS的Caltech101领域中,自监督特征在IRM设置下达到87.74%的准确率,与监督特征持平,但提升幅度较小。
- 自监督特征在对象关注区域的定位能力更优,尤其在Sketch和LabelMe等与ImageNet存在高领域偏移的领域中表现突出。
- 多任务SSL与IRM的结合在所有目标领域中均取得最高性能,表明自监督与领域泛化优化之间存在协同增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。