Skip to main content
QUICK REVIEW

[論文レビュー] DeepMIM: Deep Supervision for Masked Image Modeling

Sucheng Ren, Fangyun Wei|arXiv (Cornell University)|Mar 15, 2023
Advanced Neural Network Applications被引用数 11
ひとこと要約

DeepMIMはマスク付き画像モデリング(MIM)における深層監督を再考し、中間の ViT ブロックに軽量デコーダを追加することで、表現学習・収束・下流パフォーマンスを MAE および CLIP ベースの設定で改善することを示します。

ABSTRACT

Deep supervision, which involves extra supervisions to the intermediate features of a neural network, was widely used in image classification in the early deep learning era since it significantly reduces the training difficulty and eases the optimization like avoiding gradient vanish over the vanilla training. Nevertheless, with the emergence of normalization techniques and residual connection, deep supervision in image classification was gradually phased out. In this paper, we revisit deep supervision for masked image modeling (MIM) that pre-trains a Vision Transformer (ViT) via a mask-and-predict scheme. Experimentally, we find that deep supervision drives the shallower layers to learn more meaningful representations, accelerates model convergence, and expands attention diversities. Our approach, called DeepMIM, significantly boosts the representation capability of each layer. In addition, DeepMIM is compatible with many MIM models across a range of reconstruction targets. For instance, using ViT-B, DeepMIM on MAE achieves 84.2 top-1 accuracy on ImageNet, outperforming MAE by +0.6. By combining DeepMIM with a stronger tokenizer CLIP, our model achieves state-of-the-art performance on various downstream tasks, including image classification (85.6 top-1 accuracy on ImageNet-1K, outperforming MAE-CLIP by +0.8), object detection (52.8 APbox on COCO) and semantic segmentation (53.1 mIoU on ADE20K). Code and models are available at https://github.com/OliverRensu/DeepMIM.

研究の動機と目的

  • 自己教師ありのマスク付き画像モデリング(MIM)の文脈で、深層監督を再検討する動機づけ。
  • 浅層の表現、収束、およびアテンションの多様性が深層監督により改善されることを示す。
  • DeepMIMが複数のMIMターゲットとトークナイザーの選択と互換性があることを示す。
  • さまざまな事前学習設定を用いて、ImageNet分類、物体検出、セマンティックセグメンテーションにおける改善を定量化する。

提案手法

  • ViT-Bエンコーダの中間ViTブロック(6、8、10番目)に3つの軽量デコーダを追加し、MIM事前学習中に深層監督を可能にする。
  • 中間ブロックのターゲットとして、生データ画像とMAE再構成を組み合わせた進化的ハイブリッドターゲット生成器を任意で使用する。
  • すべてのデコーダの再構成損失の和と最終デコーダ損失の和で訓練し、複数の深さで監督を確保する。
  • MAE、MAEのバリアント、CLIPベースのターゲットとの互換性を、事前学習スケジュール(300エポックと1600エポック)全体でデモンストレーションする。
  • 再構成損失、層間のCKA類似性、およびアテンションヘッドの多様性を用いて表現を評価する。

実験結果

リサーチクエスチョン

  • RQ1中間ViTブロックに再構成監督を適用することで、MIM事前学習における表現学習が改善されるか?
  • RQ2深層監督、ハイブリッドターゲット、およびターゲットの種類が再構成損失、特徴類似性、下流の転移性能にどう影響するか?
  • RQ3DeepMIMは多様な再構成ターゲット(ピクセル、HOG、DINO特徴、CLIP など)およびMIMフレームワークと互換性があるか?
  • RQ4ImageNet分類、COCO検出、ADE20Kセマンティック分割、Kinetics動画分類などの下流タスクにおけるDeepMIMの影響はどのようか?

主な発見

  • DeepMIMは複数のターゲットとスケジュールにわたりMAEより一貫して性能を向上させる(例: ViT-B/MAEでのImageNetのトップ1+0.8など)。
  • DeepMIMは標準MAEより訓練・検証時の再構成損失を低くし、より強い最適化を示す。
  • CKA分析は、DeepMIMの中間ブロックがより識別的になり、最終表現とより良く整合することを示す。
  • DeepMIMはアテンションヘッドの多様性を高め、浅いブロックでより豊かなマルチヘッド表現を示唆する。
  • CLIPのような強力なトークナイザと組み合わせると、DeepMIMはImageNet分類、COCO検出、ADE20K分割で最先端の結果を達成する(例: DeepMIM-MAE-CLIPでImageNet-1Kのトップ1 85.6)。
  • DeepMIMはMAEと比較して、ImageNet-A、ImageNet-R、ImageNet-Cで堅牢性とアウトオブドメイン性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。