[論文レビュー] Dense Contrastive Learning for Self-Supervised Visual Pre-Training
DenseCL は密集ピクセルレベルの対照学習を密な投影ヘッドとともに実行し、密な予測タスクの自己教師あり事前学習を改善します。MoCo-v2 および ImageNet の監督付き学習に比べ、オーバーヘッドを最小限に抑えつつ顕著な利得を達成します。
To date, most existing self-supervised learning methods are designed and optimized for image classification. These pre-trained models can be sub-optimal for dense prediction tasks due to the discrepancy between image-level prediction and pixel-level prediction. To fill this gap, we aim to design an effective, dense self-supervised learning method that directly works at the level of pixels (or local features) by taking into account the correspondence between local features. We present dense contrastive learning, which implements self-supervised learning by optimizing a pairwise contrastive (dis)similarity loss at the pixel level between two views of input images. Compared to the baseline method MoCo-v2, our method introduces negligible computation overhead (only <1% slower), but demonstrates consistently superior performance when transferring to downstream dense prediction tasks including object detection, semantic segmentation and instance segmentation; and outperforms the state-of-the-art methods by a large margin. Specifically, over the strong MoCo-v2 baseline, our method achieves significant improvements of 2.0% AP on PASCAL VOC object detection, 1.1% AP on COCO object detection, 0.9% AP on COCO instance segmentation, 3.0% mIoU on PASCAL VOC semantic segmentation and 1.8% mIoU on Cityscapes semantic segmentation. Code is available at: https://git.io/AdelaiDet
研究の動機と目的
- 自己教師付き事前学習と密な予測タスク(例:オブジェクト検出、セマンティックセグメンテーション)間のギャップを埋める。
- 空間情報を保持する密なピクセルレベルの対照学習フレームワークを開発する。
- 局所特徴をビュー間で一致させる密な投影ヘッドと密な対照損失を導入する。
- 密な事前学習が複数のダウンストリーム密な予測ベンチマークで substantial な改善をもたらすことを示す。
提案手法
- 単一のグローバルベクトルの代わりに密な特徴マップを出力する密な投影ヘッドを導入する。
- グローバル対照 term と密対照 term をバランス重み(λ = 0.5)で結合したジョイント損失を計算する。
- 密な投影出力から抽出された SxS の局所特徴に対して密対照損失(InfoNCE に類似)を定義する。
- バックボーンの特徴マップをマッチングして視点間の密な対応を確立し、局所特徴の正のキー対を正しくペア付けできるようにする。
- ピクセルレベルの対応を保持しオーバーヘッドを低減する完全畳み込みパイプラインで訓練する。
- MoCo-v2 と同程度のパラメータ数を維持し、追加計算を <1% に抑える。
実験結果
リサーチクエスチョン
- RQ1denseでピクセルレベルの対照学習は画像レベルの目的を超えて密な予測タスクへの転移を改善できるか?
- RQ2密な投影ヘッドと密な対応をどのように設計すべきか、最低限のオーバーヘッドで性能を最大化するには?
- RQ3グローバル損失と密損失のバランス(λ)とグリッドサイズ(S)が下流性能に与える影響は?
- RQ4密な局所特徴を学習すると、さまざまなデータセットでのオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに改善をもたらすか?
主な発見
| Pre-train | Downstream Task | Metric | Value |
|---|---|---|---|
| COCO | PASCAL VOC object detection | AP | 56.7 |
| COCO | PASCAL VOC object detection | AP50 | 81.7 |
| COCO | PASCAL VOC object detection | AP75 | 63.0 |
| ImageNet DenseCL | PASCAL VOC object detection | AP | 58.7 |
| ImageNet DenseCL | PASCAL VOC object detection | AP50 | 82.8 |
| ImageNet DenseCL | PASCAL VOC object detection | AP75 | 65.2 |
| MoCo-v2 IN | PASCAL VOC object detection | AP | 57.0 |
| MoCo-v2 IN | PASCAL VOC object detection | AP50 | 82.4 |
| MoCo-v2 IN | PASCAL VOC object detection | AP75 | 63.6 |
| COCO | COCO object detection (APb) | APb | 22.8 |
| COCO | COCO object detection (APb50) | APb50 | 36.4 |
| COCO | COCO object detection (APb75) | APb75 | 24.2 |
| COCO | COCO object detection (APm) | APm | 20.9 |
| COCO | COCO object detection (APm50) | APm50 | 34.6 |
| COCO | COCO object detection (APm75) | APm75 | 21.9 |
| ImageNet DenseCL | COCO object detection (APb) | APb | 24.8 |
| ImageNet DenseCL | COCO object detection (APb50) | APb50 | 38.8 |
| ImageNet DenseCL | COCO object detection (APb75) | APb75 | 26.8 |
| ImageNet DenseCL | COCO object detection (APm) | APm | 22.6 |
| ImageNet DenseCL | COCO object detection (APm50) | APm50 | 36.8 |
| ImageNet DenseCL | COCO object detection (APm75) | APm75 | 23.9 |
| MoCo-v2 CC | COCO object detection (APb) | APb | 22.8 |
| MoCo-v2 CC | COCO object detection (APb50) | APb50 | 36.4 |
| MoCo-v2 CC | COCO object detection (APb75) | APb75 | 24.2 |
- DenseCL は下流の密なタスクで一貫して MoCo-v2 を上回る(例: VOC のオブジェクト検出で AP が +2.0、COCO のオブジェクト検出で AP が +1.1、COCO のインスタンスセグメンテーションで AP が +0.9)。
- DenseCL はセマンティックセグメンテーションで大幅な向上をもたらす(例: VOC での mIoU +3.0、Cityscapes で +1.8)。
- COCO で 800 エポックの DenseCL による事前訓練は VOC で 57.2 AP(ImageNet MoCo-v2 の 57.0 AP に対して)を達成し、1600-エポックの COCO 事前訓練は MoCo-v2 IN をいくつかの設定で 0.2 AP 上回る。
- DenseCL は COCO で事前訓練されていても VOC/Coco ベンチマークで最高の性能を達成することがあり、監督付き ImageNet の事前学習と同等またはそれを上回ることがある(例: VOC mIoU 67.5 は COCO DenseCL、監督付き ImageNet は 67.7)。
- 局所的な対応抽出は backbone Feature(F1, F2)を用いると密なマッチングで最良の結果を得る(Table 6)。
- DenseCL は MoCo-v2 と比較して訓練時間あたりのオーバーヘッドを <1% に抑える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。