QUICK REVIEW

[論文レビュー] iBOT: Image BERT Pre-Training with Online Tokenizer

Jinghao Zhou, Wei Chen|arXiv (Cornell University)|Nov 15, 2021

Multimodal Machine Learning Applications被引用数 209

ひとこと要約

iBOTは自己蒸留によるオンライン視覚トークナイザーを用いたマスク画像モデリングを導入し、ImageNetで最先端の結果を達成し、密集した下流タスクでも高い性能を示す。

ABSTRACT

The success of language Transformers is primarily attributed to the pretext task of masked language modeling (MLM), where texts are first tokenized into semantically meaningful pieces. In this work, we study masked image modeling (MIM) and indicate the advantages and challenges of using a semantically meaningful visual tokenizer. We present a self-supervised framework iBOT that can perform masked prediction with an online tokenizer. Specifically, we perform self-distillation on masked patch tokens and take the teacher network as the online tokenizer, along with self-distillation on the class token to acquire visual semantics. The online tokenizer is jointly learnable with the MIM objective and dispenses with a multi-stage training pipeline where the tokenizer needs to be pre-trained beforehand. We show the prominence of iBOT by achieving an 82.3% linear probing accuracy and an 87.8% fine-tuning accuracy evaluated on ImageNet-1K. Beyond the state-of-the-art image classification results, we underline emerging local semantic patterns, which helps the models to obtain strong robustness against common corruptions and achieve leading results on dense downstream tasks, eg., object detection, instance segmentation, and semantic segmentation.

研究の動機と目的

意味論的に意味あるビジュアル・トークンを活用して、視覚データのBERTに似た事前学習パラダイムを動機づける。
モデルと同時にオンラインでトークナイザーを学習し、事前学習済みのオフライン・トークナイザーの必要性を排除する。
オンライン・トークナイザーから導かれた教師トークナイザーを用いた知識蒸馏を通じて、マスク画像モデリング（MIM）を向上させる。
トークン意味論を共同学習することで、分類や密集タスクのロバスト性と下流性能がどのように向上するかを探る。

提案手法

マスク画像モデリングを、オンライン・トークナイザーを教師、Vision Transformerを生徒とする知識蒸馏として定式化する。
視点を横断した [CLS] の自己蒸留損失で視覚的意味論を獲得するMIM損失でマスクされたパッチトークンを再構成する、2つの損失を使用する。
[CLS]とパッチトークン間で射影ヘッドを共有し、意味情報を伝搬させる。
生徒と動量更新で更新されるオンライン・トークナイザーを実装し、トークナイザーのオフライン事前学習の必要性をなくす。
視点を横断した [CLS] トークンに自己蒸留を適用して意味ある視覚意味論をブートストラップし、監督としてハードなone-hotトークンではなくソフトマックスのトークン分布を用いる。
ViTとSwinのバックボーンで評価し、ImageNet-1KとImageNet-22Kで事前学習を行い、線形評価、k-NN、ファインチューニングを行う。

実験結果

リサーチクエスチョン

RQ1オンラインで共同学習される視覚トークナイザーを用いたマスク画像モデリングは、オフライン・トークナイザーアプローチより自己教師付き事前学習において優れているのか。
RQ2[CLS]トークンとパッチレベルのMIM信号に基づく自己蒸留機構は、下流タスクの意味表現とロバスト性を強化するのか。
RQ3[CLS]とパッチトークン間で射影ヘッドを共有することは、学習された意味論と性能にどう影響するのか。
RQ4オンライン・トークナイザーの意味論が線形評価、ファインチューニング、および密集ビジョンタスクへの転用にどのような影響を与えるのか。

主な発見

iBOTはImageNet-1Kの複数の評価設定で最先端の結果を達成し、ViT-L/16でImageNet-22K pre-trained時に82.3%の線形プロービングと87.8%のファインチューニング精度を達成。
標準のImageNet-1Kでは、ViT-S/16、ViT-B/16、ViT-L/16を用いたiBOTは、より大きな事前学習データでファインチューニング精度が最大84.8%、線形評価が82.3%に達し、従来のSSL手法を上回る。
iBOTはパッチトークンにおける部品レベルの意味論を新たに発見し、破損耐性の向上と、物体検出、インスタンス分割、セマンティック分割などの密集タスクでの性能向上に寄与する。
DINOと比較して、より大きなモデルでより大きな利得を示し、オンライン-tokenizerアプローチのスケーラビリティの強さを示す。
小規模データセット（例：CIFAR、Flowers、Cars）や大規模ドメインデータセット（iNaturalist 18/19）での転移学習ベンチマーク全体において、iBOTはBEiTおよびDINOベースラインを一貫して上回り、特に大きなバックボーンモデルで顕著。
iBOTは強力なベースラインに比べて背景変化、カバー、分布外データに対するロバスト性の向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。