[论文解读] Self-EMD: Self-Supervised Object Detection without ImageNet
Self-EMD 通过在未标注的非-iconic 数据(COCO)上训练,使用 dense feature maps 和 Earth Mover’s Distance 来衡量空间相似度,在不使用 ImageNet 的情况下实现有竞争力的对象检测预训练。它在 COCO 数据上使用 COCO 数据达成 39.8% mAP,若有更多未标注数据,最高可达到 40.4%。
In this paper, we propose a novel self-supervised representation learning method, Self-EMD, for object detection. Our method directly trained on unlabeled non-iconic image dataset like COCO, instead of commonly used iconic-object image dataset like ImageNet. We keep the convolutional feature maps as the image embedding to preserve spatial structures and adopt Earth Mover's Distance (EMD) to compute the similarity between two embeddings. Our Faster R-CNN (ResNet50-FPN) baseline achieves 39.8% mAP on COCO, which is on par with the state of the art self-supervised methods pre-trained on ImageNet. More importantly, it can be further improved to 40.4% mAP with more unlabeled images, showing its great potential for leveraging more easily obtained unlabeled data. Code will be made available.
研究动机与目标
- 促进不依赖 ImageNet 或显式对象数据集的自监督预训练。
- 通过避免全局池化、使用密集特征图作为嵌入来保留空间结构。
- 引入 Earth Mover’s Distance,以对齐来自非图标性图像的跨裁剪的局部补丁。
- 引入尺度不变的训练技巧,以增强对象检测的鲁棒性。
提出的方法
- 以 BYOL 作为基线的跨视图框架开始。
- 用密集特征图替代全局池化,以保留空间信息。
- 用基于余弦的局部成本和边际权重来定义两个特征图之间的 EMD。
- 通过带正则化的 Sinkhorn-Knopp 迭代高效求解 EMD。
- 通过较小尺度的视图和 Spatial Pyramid Cropping (SPC) 引入尺度不变的训练。
- 维持一个并行的 MLP 路径,以生成矢量特征用于鲁棒的边际权重。
实验结果
研究问题
- RQ1在非图标性数据集上的自监督预训练是否能在不使用 ImageNet 的情况下获得具有竞争力的检测性能?
- RQ2通过密集特征图保留空间结构是否比全局池化嵌入提升检测器的微调效果?
- RQ3Earth Mover’s Distance 是否能在多目标混杂的裁剪中有效匹配局部特征?
- RQ4尺度不变策略(SPC 与多尺度视图)是否能在自监督预训练中进一步提升检测性能?
主要发现
| Detector | Pre-train Method | Pre-train Data | Label | AP | AP50 | AP75 | APs | APm | APl |
|---|---|---|---|---|---|---|---|---|---|
| Faster R-CNN | ImageNet | ✓ | Classification | 39.1 | 60.0 | 42.2 | 24.1 | 42.7 | 50.4 |
| BYOL | ImageNet | ✓ | Classification | 39.9 | 60.2 | 43.2 | 23.3 | 43.2 | 52.8 |
| Self-EMD | ImageNet | ✓ | Classification | 40.0 | 60.4 | 44.0 | 23.5 | 43.8 | 52.2 |
| BYOL | COCO | ✓ | Classification | 38.8 | 58.5 | 42.2 | 23.3 | 41.4 | 49.5 |
| Self-EMD | COCO | ✓ | Classification | 39.8 | 60.0 | 43.4 | 24.2 | 42.7 | 50.6 |
| BYOL | COCO+ | ✓ | Classification | 39.3 | 59.0 | 42.8 | 23.5 | 42.1 | 50.5 |
| Self-EMD | COCO+ | ✓ | Classification | 40.4 | 61.1 | 43.7 | 24.4 | 43.3 | 51.3 |
- Self-EMD 在 COCO 预训练上实现 39.8% mAP,与 ImageNet 预训练的 BYOL 和有监督基线相当。
- 在 COCO+(COCO 训练集加未标注的 COCO)条件下,Self-EMD 达到 40.4% mAP,显示出更多未标注数据带来的增益。
- 基于 EMD 的匹配搭配边际权重优于其他 EMD 设置,验证了所提出设计(消融中 39.5% vs 37.2% mAP)。
- 尺度不变技术(SPC 和多尺度)带来额外的小幅提升(约 0.3% 的 AP)。
- Self-EMD 在单阶段检测器(如 RetinaNet)上显示更强的增益,并在 Faster R-CNN 和 Mask R-CNN 变体中保持竞争力。
- 在未标注的 COCO 上的训练在不同骨干网络上仍然鲁棒,对更大模型的增益更大。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。