QUICK REVIEW

[论文解读] Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Xinlong Wang, Rufeng Zhang|arXiv (Cornell University)|Nov 18, 2020

Domain Adaptation and Few-Shot Learning参考文献 48被引用 40

一句话总结

DenseCL 在密集（像素级）对比学习中使用密集投影头来改进密集预测任务的自监督预训练，在相对于 MoCo-v2 和 ImageNet 监督方面取得显著提升，开销极小。

ABSTRACT

To date, most existing self-supervised learning methods are designed and optimized for image classification. These pre-trained models can be sub-optimal for dense prediction tasks due to the discrepancy between image-level prediction and pixel-level prediction. To fill this gap, we aim to design an effective, dense self-supervised learning method that directly works at the level of pixels (or local features) by taking into account the correspondence between local features. We present dense contrastive learning, which implements self-supervised learning by optimizing a pairwise contrastive (dis)similarity loss at the pixel level between two views of input images. Compared to the baseline method MoCo-v2, our method introduces negligible computation overhead (only <1% slower), but demonstrates consistently superior performance when transferring to downstream dense prediction tasks including object detection, semantic segmentation and instance segmentation; and outperforms the state-of-the-art methods by a large margin. Specifically, over the strong MoCo-v2 baseline, our method achieves significant improvements of 2.0% AP on PASCAL VOC object detection, 1.1% AP on COCO object detection, 0.9% AP on COCO instance segmentation, 3.0% mIoU on PASCAL VOC semantic segmentation and 1.8% mIoU on Cityscapes semantic segmentation. Code is available at: https://git.io/AdelaiDet

研究动机与目标

弥合自监督预训练与密集预测任务（如目标检测、语义分割）之间的差距。
开发一个密集、像素级的对比学习框架，保留空间信息。
引入一个密集投影头和一个密集对比损失，以匹配跨视图的局部特征。
证明密集预训练在多个下游密集预测基准上带来显著改进。

提出的方法

引入一个输出密集特征地图而不是单个全局向量的密集投影头。
计算一个全球和密集对比项相结合的联合损失，并给予平衡权重（λ = 0.5）。
定义一个基于 SxS 局部特征的密集对比损失（类似 InfoNCE）。
通过匹配骨干网络特征图在视图间建立密集对应关系，使局部特征的正键对齐正确。
使用全卷积流水线进行训练，以保持像素级对应并降低开销。
保持与 MoCo-v2 相近的参数量，并显示额外计算几乎为零（<1%）。

实验结果

研究问题

RQ1密集、像素级的对比学习能否将迁移提升到超越图像级目标的密集预测任务？
RQ2应如何设计密集投影头和密集对应关系以在最小开销下实现最大性能？
RQ3全球损失与密集损失之间的平衡（λ）以及网格大小（S）对下游性能有何影响？
RQ4在多样数据集上学习密集局部特征是否能提升目标检测、实例分割和语义分割？

主要发现

预训练	下游任务	指标	数值
COCO	PASCAL VOC object detection	AP	56.7
COCO	PASCAL VOC object detection	AP50	81.7
COCO	PASCAL VOC object detection	AP75	63.0
ImageNet DenseCL	PASCAL VOC object detection	AP	58.7
ImageNet DenseCL	PASCAL VOC object detection	AP50	82.8
ImageNet DenseCL	PASCAL VOC object detection	AP75	65.2
MoCo-v2 IN	PASCAL VOC object detection	AP	57.0
MoCo-v2 IN	PASCAL VOC object detection	AP50	82.4
MoCo-v2 IN	PASCAL VOC object detection	AP75	63.6
COCO	COCO object detection (APb)	APb	22.8
COCO	COCO object detection (APb50)	APb50	36.4
COCO	COCO object detection (APb75)	APb75	24.2
COCO	COCO object detection (APm)	APm	20.9
COCO	COCO object detection (APm50)	APm50	34.6
COCO	COCO object detection (APm75)	APm75	21.9
ImageNet DenseCL	COCO object detection (APb)	APb	24.8
ImageNet DenseCL	COCO object detection (APb50)	APb50	38.8
ImageNet DenseCL	COCO object detection (APb75)	APb75	26.8
ImageNet DenseCL	COCO object detection (APm)	APm	22.6
ImageNet DenseCL	COCO object detection (APm50)	APm50	36.8
ImageNet DenseCL	COCO object detection (APm75)	APm75	23.9
MoCo-v2 CC	COCO object detection (APb)	APb	22.8
MoCo-v2 CC	COCO object detection (APb50)	APb50	36.4
MoCo-v2 CC	COCO object detection (APb75)	APb75	24.2

DenseCL 在下游密集任务上始终优于 MoCo-v2（例如，VOC目标检测 AP 提升 2.0，COCO目标检测 AP 提升 1.1，COCO实例分割 AP 提升 0.9）。
DenseCL 在语义分割方面获得显著提升（例如 VOC 增加 3.0 mIoU，Cityscapes 增加 1.8 mIoU）。
DenseCL 在 COCO 上用 800 个 epoch 预训练后，在 VOC 达到 57.2 AP（相较 ImageNet MoCo-v2 的 57.0 AP），而 1600-epoch COCO 预训练在某些设置中超越 MoCo-v2 IN 0.2 AP。
DenseCL 即使在 COCO 上预训练，也能在 VOC/Coco 基准测试中达到顶级性能，常常等同或超越监督的 ImageNet 预训练（例如 VOC mIoU 67.5，COCO DenseCL 对比 67.7 的监督 ImageNet）。
使用骨干特征（F1, F2）提取的密集对应关系在密集匹配上产生最佳结果（表 6）。
DenseCL 在训练时间上对比 MoCo-v2 的每个 epoch 额外开销微不足道（<1%）

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。