QUICK REVIEW

[論文レビュー] Corrupted Image Modeling for Self-Supervised Visual Pre-Training

Y.K. Fang, Dong Li|arXiv (Cornell University)|Feb 7, 2022

Cell Image Analysis Techniques被引用数 23

ひとこと要約

CiM は ViT および CNN の事前学習のために非シアム型の入力画像破損生成を導入し、競争力のある ImageNet および ADE20K の結果を達成する。エンハンサーは生成的（ResPix）または識別的（RevDet）である。

ABSTRACT

We introduce Corrupted Image Modeling (CIM) for self-supervised visual pre-training. CIM uses an auxiliary generator with a small trainable BEiT to corrupt the input image instead of using artificial [MASK] tokens, where some patches are randomly selected and replaced with plausible alternatives sampled from the BEiT output distribution. Given this corrupted image, an enhancer network learns to either recover all the original image pixels, or predict whether each visual token is replaced by a generator sample or not. The generator and the enhancer are simultaneously trained and synergistically updated. After pre-training, the enhancer can be used as a high-capacity visual encoder for downstream tasks. CIM is a general and flexible visual pre-training framework that is suitable for various network architectures. For the first time, CIM demonstrates that both ViT and CNN can learn rich visual representations using a unified, non-Siamese framework. Experimental results show that our approach achieves compelling results in vision benchmarks, such as ImageNet classification and ADE20K semantic segmentation.

研究の動機と目的

ViT と CNN アーキテクチャの両方で機能する柔軟な非シアム型自己教師付き事前学習フレームワークを動機づける。
入力ビューを豊かにする学習可能な BEiT ベースのジェネレータによる破損画像生成を提案する。
ピクセル再構成（ResPix）と置換検出（RevDet）の二つのエンハンサー目的を探る。
CiM が ImageNet 分類および ADE20K セマンティック分割で競争力のある転移性能を達成できることを示す。

提案手法

凍結済みの事前学習済み画像トークナイザ（dVAE）を用いてジェネレータとして小さな学習可能 BEiT を使用し、BEiT の出力分布からサンプリングして破損画像を生成する。
破損画像をエンハンサー網に入力し、元のピクセルを再構成する（ResPix）か、置換されたトークンを検出する（RevDet）ように訓練する。
ジェネレータとエンハンサーを jointly に訓練するが、ジェネレータを通じた勾配は流れないようにして、安定した非 adversarial な更新を可能にする。
ResPix の性能向上のためにスライディングウィンドウ方式によるピクセル目標の正規化を任意で適用する。
ViT と CNN のエンハンサーの両方を統一フレームワークで事前学習し、下流タスクへ良好に転移できることを示す。

実験結果

リサーチクエスチョン

RQ1CiM は非シアム型の破損画像パラダイムを用いて高容量の ViT および CNN エンコーダを事前学習できるか？
RQ2入力を破損させる学習可能なジェネレータは、固定マスキング手法より表現学習を改善するか？
RQ3生成的（ResPix）と識別的（RevDet）エンハンサー目的は下流タスクのために双方有効か？
RQ4CiM で事前学習した ViT および CNN は、ベースラインと比較して ImageNet 分類と ADE20K 分割でどの程度の性能を示すか？

主な発見

Models	PT Epochs	Top-1
ViT-Small/16 (Scratch)	-	79.9
MoCo-v3	600	81.4
DINO	1600	81.5
BEiT	300	81.3
CiM - ResPix	300	81.5
CiM - RevDet	300	81.6
ViT-Base/16 (Scratch)	-	81.8
ViT-Base/16 (Scratch, He et al. 2021)	-	82.3
DINO	1600	82.8
MoCo-v3	600	83.2
BEiT	300	82.9
BEiT	800	83.2
MAE	800	83.1
CiM - RevDet	300	83.3
CiM - ResPix	300	83.3

CiM は ViT-S/16 および ViT-Base/16 の 300 エポックの事前学習で ImageNet のエンドツーエンド微調整トップ1 精度で競争力を示す。
CiM ViT-Base/16 with RevDet は ImageNet-1K で Table 1 にて 83.3% のトップ1 に到達し、BEiT および MAE のベースラインと同等。
CiM-ResPix および CiM-RevDet による ViT-Base/16 は記載設定下で 83.3% のトップ1 を達成；RevDet は Table 1 で 83.3%（ResPix が 83.3% の表記）となっている。
ResNet-50 では CiM-RevDet が 300 エポックの事前学習後に 78.8% のトップ1 に到達し、いくつかの Siamese 法ベースラインよりも高い微調整条件を示す。
ADE20K セマンティック分割では、CiM-ResPix および CiM-RevDet は ViT-Base/16 エンコーダでそれぞれ 38.7 および 39.0 mIoU、 presented setups では ViT-Base/16 エンコーダで 43.5–43.6 mIoU を達成。
アブレーションとして、約50% のランダムマスキング、スモール BEiT の 4–6 層、ResPix のスライディングウィンドウ正規化、ジェネレータトークンのソフトマックスサンプリングが利益を与えることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。