[論文レビュー] Toward Transformer-Based Object Detection
ViT-FRCNNはVision TransformerバックボーンをFaster R-CNN風検出器と組み合わせて、COCO検出結果で競争力を持ち、アウト・オブ・ドメインでの一般化を改善する。大規模事前学習の検出タスクへの利点を強調する。
Transformers have become the dominant model in natural language processing, owing to their ability to pretrain on massive amounts of data, then transfer to smaller, more specific tasks via fine-tuning. The Vision Transformer was the first major attempt to apply a pure transformer model directly to images as input, demonstrating that as compared to convolutional networks, transformer-based architectures can achieve competitive results on benchmark classification tasks. However, the computational complexity of the attention operator means that we are limited to low-resolution inputs. For more complex tasks such as detection or segmentation, maintaining a high input resolution is crucial to ensure that models can properly identify and reflect fine details in their output. This naturally raises the question of whether or not transformer-based architectures such as the Vision Transformer are capable of performing tasks other than classification. In this paper, we determine that Vision Transformers can be used as a backbone by a common detection task head to produce competitive COCO results. The model that we propose, ViT-FRCNN, demonstrates several known properties associated with transformers, including large pretraining capacity and fast fine-tuning performance. We also investigate improvements over a standard detection backbone, including superior performance on out-of-domain images, better performance on large objects, and a lessened reliance on non-maximum suppression. We view ViT-FRCNN as an important stepping stone toward a pure-transformer solution of complex vision tasks such as object detection.
研究の動機と目的
- Vision Transformerバックボーンを検出ヘッドと組み合わせて物体検出を行えることを実証する。
- トランスフォーマーボーンがCOCOでの検出性能と一般化に与える影響を評価する。
- 検出転移に影響を与える事前学習戦略とアーキテクチャの微調整を調査する。
- 空間解像度、中間エンコーダ出力、残差接続が検出品質に与える影響を分析する。
提案手法
- 最終トランスフォーマー出力を検出用の空間特徴マップとして解釈することでVision Transformerバックボーンを再利用する。
- RPNとRoIヘッドを備えたFaster R-CNN風検出器を用いてクラスラベルと境界ボックスを予測する。
- 小さな物体のディテールを保持するため高解像度入力でViT-FRCNNモデル全体をエンドツーエンドで微調整する。
- 訓練と推論中の可変な入力サイズとアスペクト比に対処するため位置埋め込みを補間する。
- エンコーダの中間出力を用いることや検出器へ接続する残差ブロックの追加など、アーキテクチャのバリアントを調査する。
- 大規模画像データセット(ImageNet-21k、Annotations-1.3B、Open Images)でバックボーンを事前学習し、カリキュラム学習を探究する。
実験結果
リサーチクエスチョン
- RQ1従来の検出ヘッドと組み合わせた場合、純粋なTransformerバックボーンは競争力のある物体検出性能を達成できるか。
- RQ2入力の空間解像度と特徴マップの準備は検出精度、特に小さい物体の検出にどのように影響するか。
- RQ3大規模事前学習とカリキュラム事前学習が検出転移性能に与える影響は何か。
- RQ4ViTバックボーンを使用する際、中間のエンコーダ特徴とアーキテクチャ的接続は検出器の性能を向上させるか。
- RQ5ViT-FRCNNはCNNベースの検出器と比較して、ドメイン外データへどの程度一般化するか。
主な発見
| モデル | AP | AP 50 | AP 75 | AP S | AP M | AP L |
|---|---|---|---|---|---|---|
| ResNet50-FRCNN-FPN | 36.0 | 57.7 | 38.4 | 20.8 | 40.0 | 46.2 |
| ResNet101-FRCNN-FPN | 38.8 | 59.9 | 42.0 | 22.2 | 43.0 | 50.9 |
| ViT-B/32*-FRCNN | 30.9 | 50.5 | 31.7 | 9.7 | 33.7 | 51.5 |
| ViT-B/32-FRCNN | 29.3 | 48.9 | 30.1 | 9.0 | 31.8 | 48.8 |
| ViT-B/32-FRCNN stride=0.5 | 34.5 | 53.4 | 36.8 | 15.6 | 36.9 | 52.3 |
| ViT-B/16-FRCNN | 36.6 | 56.3 | 39.3 | 17.4 | 40.0 | 55.5 |
| ViT-B/16*-FRCNN | 37.8 | 57.4 | 40.1 | 17.8 | 41.4 | 57.3 |
- ViT-FRCNNはResNet-FRCNN-FPNベースラインと比較して競争力のあるCOCO APを達成し、より小さなパッチサイズ(16x16)を使用した場合に改善が大きい。
- 32x32から16x16へのパッチサイズの削減はAPの大幅な向上をもたらし、特に小さい物体(AP_S)に顕著。
- 中間エンコーダ出力と残差ブロックを取り入れるとAPが向上するが、一定数を超えるとリターンが低下する。
- ViT-FRCNNはout-of-domainデータセット(ObjectNet-D)でより強い一般化を示し、Open Images V6を含む大規模事前学習の恩恵を受け、設定によってAPを約2–3ポイント程度改善。
- トランスフォーマーベースの検出器では過検出が減少し、特にNMSが緩い場合に偽陽性ボックスの抑制が改善。
- Open Images V6でのカリキュラム前学習はImageNet-21k前学習より追加のAP向上をもたらし、特に小〜中程度の物体で顕著。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。