QUICK REVIEW

[论文解读] Rethinking Pre-training and Self-training

Barret Zoph, Golnaz Ghiasi|arXiv (Cornell University)|Jun 11, 2020

Human Resource Development and Performance Evaluation参考文献 88被引用 366

一句话总结

论文比较视觉任务中的预训练与自训练，结果显示在强数据增强和更多未标注数据的条件下，预训练的价值会减弱甚至消失，而自训练始终带来收益，即使在预训练有害的情况下也如此。它展示了自训练的叠加效益，并报道在 COCO 和 PASCAL 数据集上通过自训练实现了新的SOTA结果。

ABSTRACT

Pre-training is a dominant paradigm in computer vision. For example, supervised ImageNet pre-training is commonly used to initialize the backbones of object detection and segmentation models. He et al., however, show a surprising result that ImageNet pre-training has limited impact on COCO object detection. Here we investigate self-training as another method to utilize additional data on the same setup and contrast it against ImageNet pre-training. Our study reveals the generality and flexibility of self-training with three additional insights: 1) stronger data augmentation and more labeled data further diminish the value of pre-training, 2) unlike pre-training, self-training is always helpful when using stronger data augmentation, in both low-data and high-data regimes, and 3) in the case that pre-training is helpful, self-training improves upon pre-training. For example, on the COCO object detection dataset, pre-training benefits when we use one fifth of the labeled data, and hurts accuracy when we use all labeled data. Self-training, on the other hand, shows positive improvements from +1.3 to +3.4AP across all dataset sizes. In other words, self-training works well exactly on the same setup that pre-training does not work (using ImageNet to help COCO). On the PASCAL segmentation dataset, which is a much smaller dataset than COCO, though pre-training does help significantly, self-training improves upon the pre-trained model. On COCO object detection, we achieve 54.3AP, an improvement of +1.5AP over the strongest SpineNet model. On PASCAL segmentation, we achieve 90.5 mIOU, an improvement of +1.5% mIOU over the previous state-of-the-art result by DeepLabv3+.

研究动机与目标

评估在不同数据增强强度和标注数据量下，ImageNet 预训练对目标检测和分割的有效性。
评估自训练作为使用 ImageNet 和 Open Images 的未标注数据的替代方案。
比较监督式预训练、自监督预训练和自训练，以确定各自的相对优势及相互作用。
展示自训练在架构、数据集和任务（检测与分割）上的可扩展性与灵活性。

提出的方法

系统性地用四种策略（Augment-S1 至 Augment-S4）改变数据增强强度。
在 COCO 上使用 EfficientNet-B7 主干与 RetinaNet 进行目标检测，并使用 SpineNet 变体进行前沿对比。
应用带有教师-学生框架的自训练，利用未标注数据（ImageNet、Open Images）的伪标签。
评估有监督的 ImageNet 预训练和自监督预训练（SimCLR）作为初始权重。
研究联合训练以及预训练、自训练与联合优化的组合，以评估累加增益。

实验结果

研究问题

RQ1ImageNet 预训练在不同数据增强强度和标注数据量下，是否有助于 COCO 目标检测和 PASCAL 分割？
RQ2当预训练带来负面影响时，自训练是否仍然稳健且有益？其与增强的互动关系如何？
RQ3监督式和自监督式预训练在迁移到 COCO/分割任务时有何差异？
RQ4自训练能否在不同数据集和架构上带来最先进的结果，并且与预训练是否具有叠加效应？

主要发现

更强的数据增强和更多的标注数据会降低甚至抵消预训练的好处，在强增强下对 COCO 的影响有时会达 -1.0 AP。
自训练在各种数据情景下始终带来收益，即使在预训练不利时也如此，在强增强下对 COCO 提升为 +1.3 AP。
自训练的收益在数据集规模（20%–100%）上具有鲁棒性，并且与预训练具有叠加性，例如两者结合的增益超过任一方法单独使用的效果。
自监督预训练（SimCLR）与有监督的 ImageNet 预训练性能相当，在高数据量/强增强设置下也会对 COCO 造成负面影响，而自训练则有帮助。
在 COCO 上，使用 Open Images 的自训练达到 54.3 AP，超过之前的 SpineNet 基线 +1.5 AP；在 PASCAL VOC 2012 上，使用 NAS-FPN/EfficientNet 的自训练达到 90.5 mIOU，比之前的最优结果高出 +1.5%。
联合训练以及将预训练、自训练与联合优化结合起来，可以带来进一步的改进，表明彼此之间存在互补效应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。