[论文解读] Corrupted Image Modeling for Self-Supervised Visual Pre-Training
CiM 引入一种生成器增强的输入图像污染,用于训练非对称 Siamese 的增强器以进行 ViT 和 CNN 的预训练,达到在 ImageNet 和 ADE20K 上具有竞争力的结果。该增强器可以是生成式(ResPix)或判别式(RevDet)。
We introduce Corrupted Image Modeling (CIM) for self-supervised visual pre-training. CIM uses an auxiliary generator with a small trainable BEiT to corrupt the input image instead of using artificial [MASK] tokens, where some patches are randomly selected and replaced with plausible alternatives sampled from the BEiT output distribution. Given this corrupted image, an enhancer network learns to either recover all the original image pixels, or predict whether each visual token is replaced by a generator sample or not. The generator and the enhancer are simultaneously trained and synergistically updated. After pre-training, the enhancer can be used as a high-capacity visual encoder for downstream tasks. CIM is a general and flexible visual pre-training framework that is suitable for various network architectures. For the first time, CIM demonstrates that both ViT and CNN can learn rich visual representations using a unified, non-Siamese framework. Experimental results show that our approach achieves compelling results in vision benchmarks, such as ImageNet classification and ADE20K semantic segmentation.
研究动机与目标
- 提出一个灵活的、非对称 Siamese 的自监督预训练框架,适用于 ViT 和 CNN 架构。
- 提出通过可训练的 BEiT 基生成器对输入视图进行污染生成,以丰富输入视图。
- 探讨两种增强器目标——像素重建(ResPix)和替换检测(RevDet)。
- 证明 CiM 能在 ImageNet 分类和 ADE20K 分割任务上达到具有竞争力的迁移性能。
提出的方法
- 使用一个小型可训练的 BEiT 作为生成器,并搭配一个冻结的预训练图像分词器(dVAE),通过从 BEiT 的输出分布采样来生成污染图像。
- 将污染图像输入到增强器网络中,该网络训练为要么重建原始像素(ResPix),要么检测哪些标记被替换(RevDet)。
- 联同训练生成器和增强器,但梯度不通过生成器流动,从而实现稳定的、非对抗性的更新。
- 可选地使用滑动窗口方案对像素目标进行归一化,以提升 ResPix 的性能。
- 证明 ViT 和 CNN 的增强器都可以在一个统一框架中进行预训练,并且能很好地迁移到下游任务。
实验结果
研究问题
- RQ1CiM 是否能够使用非 Siamese、被污染图像范式对高容量的 ViT 和 CNN 编码器进行预训练?
- RQ2相比固定掩蔽方案,使用可训练的生成器来污染输入是否能提升表征学习?
- RQ3生成式(ResPix)和判别式(RevDet)增强器目标在下游任务中是否都有效?
- RQ4相对于基线,CiM 预训练的 ViT 与 CNN 模型在 ImageNet 分类和 ADE20K 分割任务中的表现如何?
主要发现
| 模型 | 预训练轮数 | Top-1 |
|---|---|---|
| ViT-Small/16 (Scratch) | - | 79.9 |
| MoCo-v3 | 600 | 81.4 |
| DINO | 1600 | 81.5 |
| BEiT | 300 | 81.3 |
| CiM - ResPix | 300 | 81.5 |
| CiM - RevDet | 300 | 81.6 |
| ViT-Base/16 (Scratch) | - | 81.8 |
| ViT-Base/16 (Scratch, He et al. 2021) | - | 82.3 |
| DINO | 1600 | 82.8 |
| MoCo-v3 | 600 | 83.2 |
| BEiT | 300 | 82.9 |
| BEiT | 800 | 83.2 |
| MAE | 800 | 83.1 |
| CiM - RevDet | 300 | 83.3 |
| CiM - ResPix | 300 | 83.3 |
- CiM 在 ViT-S/16 和 ViT-Base/16 上完成 300 轮预训练后,端到端微调的 top-1 准确率具有竞争力。
- CiM ViT-Base/16 采用 RevDet 在 ImageNet-1K 上达到 83.3% 的 top-1,与 BEiT 和 MAE 基线相当。
- CiM-ResPix 与 CiM-RevDet 在 ViT-Base/16 设置下的 top-1 达到 83.3%;表 1 中 RevDet 为 83.3,ResPix 为 83.3。
- 对于 ResNet-50,在 300 轮预训练后,CiM-RevDet 达到 78.8% 的 top-1,在某些微调设定下超过了若干 Siamese 方法的基线。
- 在 ADE20K 语义分割上,CiM-ResPix 与 CiM-RevDet 随 ViT-Base/16 编码器分别达到 38.7 和 39.0 mIoU,在本研究设定中, ViT-Base/16 编码器达到 43.5–43.6 mIoU。
- 消融研究显示,约 50% 的随机掩蔽、较小 BEiT 的 4–6 层、ResPix 的滑动窗口归一化以及生成器标记的 softmax 采样均带来益处。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。