[論文レビュー] Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation
本論文は特徴蒸留を用いて事前学習表現をポスト処理し、最適化に優しい特徴へ変換して、コントラスト学習/自己教師あり手法とマスク付き画像モデリング(MIM)のファインチューニングギャップを縮小します。これによりCLIPやSwinV2-Gを含むモデルでファインチューニングの性能が向上し、改善を生み出す最適化特性を分析します。
Masked image modeling (MIM) learns representations with remarkably good fine-tuning performances, overshadowing previous prevalent pre-training approaches such as image classification, instance contrastive learning, and image-text alignment. In this paper, we show that the inferior fine-tuning performance of these pre-training approaches can be significantly improved by a simple post-processing in the form of feature distillation (FD). The feature distillation converts the old representations to new representations that have a few desirable properties just like those representations produced by MIM. These properties, which we aggregately refer to as optimization friendliness, are identified and analyzed by a set of attention- and optimization-related diagnosis tools. With these properties, the new representations show strong fine-tuning performance. Specifically, the contrastive self-supervised learning methods are made as competitive in fine-tuning as the state-of-the-art masked image modeling (MIM) algorithms. The CLIP models' fine-tuning performance is also significantly improved, with a CLIP ViT-L model reaching 89.0% top-1 accuracy on ImageNet-1K classification. On the 3-billion-parameter SwinV2-G model, the fine-tuning accuracy is improved by +1.5 mIoU / +1.1 mAP to 61.4 mIoU / 64.2 mAP on ADE20K semantic segmentation and COCO object detection, respectively, creating new records on both benchmarks. More importantly, our work provides a way for the future research to focus more effort on the generality and scalability of the learnt representations without being pre-occupied with optimization friendliness since it can be enhanced rather easily. The code will be available at https://github.com/SwinTransformer/Feature-Distillation.
研究の動機と目的
- マスクドイメージモデリング(MIM)が他の事前学習パラダイムと比較してファインチューニングに優れている理由を動機づけ、定量化する。
- 任意の事前学習モデルに適用可能な汎用的な特徴蒸留(FD)手法を提案し、ファインチューニング性能を改善する。
- FDによって導入される表現の最適化に適した特性を特定・分析する。
- FDが非MIM手法(対比学習やCLIPベースなど)を競争力のある、あるいはそれを上回るファインチューニング性能へと導くことを示す。
- ImageNet-1K分類、ADE20K分割、COCO検出の各タスクで実用的な利得を示す。
提案手法
- 次元をそろえるために1×1畳み込みを用いて、事前学習済みのteacherからstudentネットワークへ特徴マップを蒸留する。
- teacherの特徴マップをホワイトニングして大きさを正規化し、蒸留の安定性を向上させる。
- 変換後のstudent特徴とホワイトニングされたteacher特徴との間で滑らかなL1損失を用いて蒸留を行う。
- 層間で共有された相対位置バイアス(RPB)と、teacherとstudent間の非対称のドロップパス率を採用して最適化の使いやすさを高める。
- 蒸留ターゲットとしてさまざまな選択肢(全特徴マップ vs ロジット)を評価し、全特徴マップが最良の利得をもたらすことを見つける。
- 最適化の使いやすさを診断するため、注意機構の性質(平均注意距離、ヘッド多様性、注意マップ)と損失地形を分析する。
実験結果
リサーチクエスチョン
- RQ1特徴蒸留は多様な事前学習パラダイム(DINO、EsViT、CLIP、DeiT、MAE)におけるファインチューニング性能を向上させるか?
- RQ2特徴を蒸留する(ロジットではなく)ことで転移が改善されるか、正規化と位置エンコーディングの選択は性能にどう影響するか?
- RQ3FDによる利得に寄与する最適化に適した性質は何か、注意パターンや損失地形とどう関連するか?
- RQ4FD後に非MIM手法はファインチューニングでMIM性能にどれだけ近づけるか?
- RQ5利得は大規模モデルやセマンティックセグメンテーション・物体検出などのダウンストリームタスクへ一般化するか?
主な発見
| 方法 | バックボーン | F. D. | IN-1K | ADE20K | ファインチューニング | 線形 |
|---|---|---|---|---|---|---|
| BEiT | ViT-B | 2242 | 83.2 | 37.6 | 47.1 | - |
| MAE | ViT-B | 2242 | 83.6 | 68.0 | 48.1 | - |
| SimMIM | ViT-B | 2242 | 83.8 | 56.7 | 47.6 | - |
| SimMIM | Swin-B | 2242 | 84.8 | 24.8 | 48.3 | - |
| WiSE-FT CLIP | ViT-L | 3362 | 87.1 | - | - | - |
| DINO | ViT-B | 2242 | 82.8 | 78.2 | 46.2 | - |
| FD-DINO | ViT-B | 2242 | ✓ | 83.8 (+1.0) | 76.1 | 47.7 (+1.5) |
| EsViT | Swin-B | 2242 | 83.9 | 81.3 | 47.3 | - |
| FD-EsViT | Swin-B | 2242 | ✓ | 85.1 (+1.2) | 80.4 | 48.9 (+1.6) |
| DeiT | ViT-B | 2242 | 81.8 | - | 47.0 | - |
| FD-DeiT | 2242 | ✓ | 83.0 (+1.2) | - | 48.0 (+1.0) | - |
| CLIP | ViT-B | 2242 | 82.9 | 79.5 | 49.5 | - |
| FD-CLIP | 2242 | ✓ | 84.9 (+2.0) | 80.3 | 52.8 (+3.3) | - |
| CLIP | ViT-L | 2242 | 86.1 | 83.5 | 53.5 | - |
| FD-CLIP | 2242 | ✓ | 87.7 (+1.6) | 84.8 | 55.7 (+2.2) | - |
| FD-CLIP* | 3362 | ✓ | 89.0 | - | - | - |
- Feature distillation consistently improves ImageNet-1K fine-tuning by roughly 1.0%–2.0% across several pre-training methods.
- FD enables non-MIM methods (e.g., DINO, EsViT, CLIP, DeiT) to reach competitive or superior fine-tuning performance relative to MIM approaches.
- CLIP ViT-L with FD reaches 89.0% top-1 accuracy on ImageNet-1K, surpassing prior CLIP fine-tuning results by up to 1.9%.
- On the 3B-parameter SwinV2-G, FD improves ADE20K mIoU by +1.5 and COCO AP by +1.1, achieving 61.4 mIoU and 64.2 AP.
- FD tends to create more diverse attention heads, greater reliance on relative positions, and flatter loss landscapes, all contributing to improved fine-tuning.
- MAE representations show limited extra gains from FD, indicating overlapping optimization-friendly effects with MIM.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。