Skip to main content
QUICK REVIEW

[論文レビュー] PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers

Xiaoyi Dong, Jianmin Bao|arXiv (Cornell University)|Nov 24, 2021
Advanced Neural Network Applications参考文献 64被引用数 32
ひとこと要約

PeCoは、知覚損失で学習された知覚的視覚コードブックを導入し、ビジョントランスフォーマーのBERT風事前学習を導くことで、BEiTおよびMAEより下流タスクへの転移を強化する。

ABSTRACT

This paper explores a better prediction target for BERT pre-training of vision transformers. We observe that current prediction targets disagree with human perception judgment.This contradiction motivates us to learn a perceptual prediction target. We argue that perceptually similar images should stay close to each other in the prediction target space. We surprisingly find one simple yet effective idea: enforcing perceptual similarity during the dVAE training. Moreover, we adopt a self-supervised transformer model for deep feature extraction and show that it works well for calculating perceptual similarity.We demonstrate that such learned visual tokens indeed exhibit better semantic meanings, and help pre-training achieve superior transfer performance in various downstream tasks. For example, we achieve $ extbf{84.5\%}$ Top-1 accuracy on ImageNet-1K with ViT-B backbone, outperforming the competitive method BEiT by $ extbf{+1.3\%}$ under the same pre-training epochs. Our approach also gets significant improvement on object detection and segmentation on COCO and semantic segmentation on ADE20K. Equipped with a larger backbone ViT-H, we achieve the state-of-the-art ImageNet accuracy ( extbf{88.3\%}) among methods using only ImageNet-1K data.

研究の動機と目的

  • 人間の知覚と整合するマスク済み画像モデリングの予測ターゲットを動機づける。
  • VQ-VAEを介して離散的な視覚コードブックを学習するための知覚損失を導入する。
  • 知覚トークンがより意味的に有意義な表現を生み出すことを実証する。
  • 画像分類、物体検出、セマンティックセグメンテーションにおける転移性能の向上を示す。

提案手法

  • サイズK=8192の学習可能なコードブックを持つ離散的な視覚トークンへ変換するためにVQ-VAEを使用する。
  • 自己教師付きViT(MoCo v3)の多尺度特徴量から計算される知覚損失を組み込み、VQ-VAEのエンコーダ/量子化器を訓練する。
  • 知覚コードブックトークン上で、マスクされたトークンIDを分類器が予測するBERT風のマスク付き画像モデリング目的を適用する。
  • PeCoトークンと標準的なマスキング戦略を用いてViTバックボーン(ViT-B/16、ViT-L、ViT-H)を事前訓練する。
  • 下流タスクへのファインチューニング:ImageNet-1K分類、COCO物体検出、およびADE20Kセマンティックセグメンテーション。

実験結果

リサーチクエスチョン

  • RQ1知覚類似性に基づくトークン化は、ピクセルベースやDALL·Eベースのトークンよりも良い意味学習をもたらすか。
  • RQ2知覚コードブックは分類、検出、セマンティックセグメンテーションタスクでViTモデルの転移性能を改善するか。
  • RQ3類似の事前学習設定とデータ制約の下で、PeCoはBEiTおよびMAEとどのように比較されるか。

主な発見

  • PeCoはViT-BでImageNet-1Kにおいて84.5% Top-1精度を達成し、同じ800事前学習エポックでBEiTを1.3%上回る。
  • より大きなバックボーンViT-Hでは、ImageNet-1Kデータのみを使用してImageNet-1Kで88.3% Top-1に到達し、この設定で最先端を達成。
  • PeCoは以前の自己教師あり手法と比較してCOCO物体検出とADE20Kセマンティックセグメンテーションで著しい改善を示す。
  • ライトなトークナイザ変種はエンコードコストを削減しつつ競争力のある性能を維持する。
  • 知覚損失で学習されたコードワードは、改善されたリニアプロービングおよび再構成分類の結果から、より高い意味的意味を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。