Skip to main content
QUICK REVIEW

[論文レビュー] Exploring Plain Vision Transformer Backbones for Object Detection

Yanghao Li, Hanzi Mao|arXiv (Cornell University)|Mar 30, 2022
Advanced Neural Network Applications被引用数 42
ひとこと要約

本論文は、プレーン(非階層的)ViTバックボーンを物体検出に用いることを調査し、最小限の微調整適応とMAE事前学習で競争力のある結果を示し、ViT-HとImageNet-1K事前学習を用いたCOCOで61.3 APのボックスを含む。

ABSTRACT

We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone network for object detection. This design enables the original ViT architecture to be fine-tuned for object detection without needing to redesign a hierarchical backbone for pre-training. With minimal adaptations for fine-tuning, our plain-backbone detector can achieve competitive results. Surprisingly, we observe: (i) it is sufficient to build a simple feature pyramid from a single-scale feature map (without the common FPN design) and (ii) it is sufficient to use window attention (without shifting) aided with very few cross-window propagation blocks. With plain ViT backbones pre-trained as Masked Autoencoders (MAE), our detector, named ViTDet, can compete with the previous leading methods that were all based on hierarchical backbones, reaching up to 61.3 AP_box on the COCO dataset using only ImageNet-1K pre-training. We hope our study will draw attention to research on plain-backbone detectors. Code for ViTDet is available in Detectron2.

研究の動機と目的

  • 検出専用モジュールからバックボーン設計を切り離し、プレーンなViTバックボーンを検出のために微調整可能にする。
  • 従来のFPNを用いずに、単純で非階層的なバックボーンがマルチスケール検出をサポートできることを示す。
  • ウィンドウ注意機構と単純な特徴ピラミッドといった最小限の適応で、強力な性能を達成できることを示す。
  • 公正な条件下で、プレーンバックボーン検出器と先行の階層型バックボーン(Swin、MViT)を比較する。
  • 検出タスクにおけるプレーンViTバックボーンに対するMAE事前学習の利点を強調する。

提案手法

  • ImageNet-1KでMAE(Masked Autoencoder)で事前学習されたプレーンViTバックボーン(ViT-B/L/H)を使用する。
  • プレーンバックボーンの最終特徴マップから単純な特徴ピラミッドを構築し、FPNタイプの階層バックボーンなしでマルチスケール検出を可能にする。
  • 微調整時にウィンドウベースの自己注意を適用し、少数のウィンドウ間伝搬ブロック(グローバル注意または畳み込み)を用いる。
  • 標準的な検出ヘッドを用い、ImageNet-1K MAE事前学習を行った上でCOCO上でMask R-CNN / Cascade Mask R-CNNを微調整する。
  • 性能と効率の観点から、バックボーン適応戦略を4つ(適用なし、畳み込み伝搬、グローバル伝搬、さまざまな伝搬配置)で比較する。
  • COCOとLVISデータセットの両方で評価し、SwinおよびMViTの階層バックボーンとの比較を含む。)

実験結果

リサーチクエスチョン

  • RQ1プレーンで非階層的なViTバックボーンを、検出性能を損なうことなくマルチスケールの物体検出に効果的に微調整できるか。
  • RQ2競争力のある検出結果を得るのに、プレーンViTバックボーンに必要な最小限の適応は何か(特徴ピラミッド、ウィンドウ注意、ウィンドウ間伝搬)?

主な発見

  • 単純な特徴ピラミッドを用いたプレーンバックボーンは、ピラミッドなしのベースラインをCOCOで最大3.4 AP上回る。
  • ウィンドウ注意と数個のウィンドウ間伝搬ブロックで、検出タスクの精度を十分に得られる。
  • IN-1KでのMAE事前学習は検出タスクにおけるViTバックボーンに substantial gains をもたらす(例: ViT-Bで+3.1 AP、ViT-Lで+4.6 AP)。
  • MAE事前学習を用いたViTDetは、階層バックボーンと競争力のある結果を達成でき、特に大規模モデルでは一部の階層的手法を上回ることがある。
  • MAE事前学習を用いたViT-HはCOCOで61.3 APのボックスに到達し、プレーンバックボーンで強力な検出性能に匹敵する。
  • プレーンバックボーン検出器は、いくつかの階層バックボーン手法と比べてスケーリングと実測時間の点で有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。