[论文解读] Rethinking Pre-training and Self-training
论文比较视觉任务中的预训练与自训练,结果显示在强数据增强和更多未标注数据的条件下,预训练的价值会减弱甚至消失,而自训练始终带来收益,即使在预训练有害的情况下也如此。它展示了自训练的叠加效益,并报道在 COCO 和 PASCAL 数据集上通过自训练实现了新的SOTA结果。
Pre-training is a dominant paradigm in computer vision. For example, supervised ImageNet pre-training is commonly used to initialize the backbones of object detection and segmentation models. He et al., however, show a surprising result that ImageNet pre-training has limited impact on COCO object detection. Here we investigate self-training as another method to utilize additional data on the same setup and contrast it against ImageNet pre-training. Our study reveals the generality and flexibility of self-training with three additional insights: 1) stronger data augmentation and more labeled data further diminish the value of pre-training, 2) unlike pre-training, self-training is always helpful when using stronger data augmentation, in both low-data and high-data regimes, and 3) in the case that pre-training is helpful, self-training improves upon pre-training. For example, on the COCO object detection dataset, pre-training benefits when we use one fifth of the labeled data, and hurts accuracy when we use all labeled data. Self-training, on the other hand, shows positive improvements from +1.3 to +3.4AP across all dataset sizes. In other words, self-training works well exactly on the same setup that pre-training does not work (using ImageNet to help COCO). On the PASCAL segmentation dataset, which is a much smaller dataset than COCO, though pre-training does help significantly, self-training improves upon the pre-trained model. On COCO object detection, we achieve 54.3AP, an improvement of +1.5AP over the strongest SpineNet model. On PASCAL segmentation, we achieve 90.5 mIOU, an improvement of +1.5% mIOU over the previous state-of-the-art result by DeepLabv3+.
研究动机与目标
- 评估在不同数据增强强度和标注数据量下,ImageNet 预训练对目标检测和分割的有效性。
- 评估自训练作为使用 ImageNet 和 Open Images 的未标注数据的替代方案。
- 比较监督式预训练、自监督预训练和自训练,以确定各自的相对优势及相互作用。
- 展示自训练在架构、数据集和任务(检测与分割)上的可扩展性与灵活性。
提出的方法
- 系统性地用四种策略(Augment-S1 至 Augment-S4)改变数据增强强度。
- 在 COCO 上使用 EfficientNet-B7 主干与 RetinaNet 进行目标检测,并使用 SpineNet 变体进行前沿对比。
- 应用带有教师-学生框架的自训练,利用未标注数据(ImageNet、Open Images)的伪标签。
- 评估有监督的 ImageNet 预训练和自监督预训练(SimCLR)作为初始权重。
- 研究联合训练以及预训练、自训练与联合优化的组合,以评估累加增益。
实验结果
研究问题
- RQ1ImageNet 预训练在不同数据增强强度和标注数据量下,是否有助于 COCO 目标检测和 PASCAL 分割?
- RQ2当预训练带来负面影响时,自训练是否仍然稳健且有益?其与增强的互动关系如何?
- RQ3监督式和自监督式预训练在迁移到 COCO/分割任务时有何差异?
- RQ4自训练能否在不同数据集和架构上带来最先进的结果,并且与预训练是否具有叠加效应?
主要发现
- 更强的数据增强和更多的标注数据会降低甚至抵消预训练的好处,在强增强下对 COCO 的影响有时会达 -1.0 AP。
- 自训练在各种数据情景下始终带来收益,即使在预训练不利时也如此,在强增强下对 COCO 提升为 +1.3 AP。
- 自训练的收益在数据集规模(20%–100%)上具有鲁棒性,并且与预训练具有叠加性,例如两者结合的增益超过任一方法单独使用的效果。
- 自监督预训练(SimCLR)与有监督的 ImageNet 预训练性能相当,在高数据量/强增强设置下也会对 COCO 造成负面影响,而自训练则有帮助。
- 在 COCO 上,使用 Open Images 的自训练达到 54.3 AP,超过之前的 SpineNet 基线 +1.5 AP;在 PASCAL VOC 2012 上,使用 NAS-FPN/EfficientNet 的自训练达到 90.5 mIOU,比之前的最优结果高出 +1.5%。
- 联合训练以及将预训练、自训练与联合优化结合起来,可以带来进一步的改进,表明彼此之间存在互补效应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。