[論文レビュー] You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection
YOLOS は最小限の変更を加えた標準の Vision Transformer が、純粋なシーケンス対シーケンスアプローチを用いて2D物体検出を実行できることを示す。ImageNet-1k の事前学習後、COCO の結果は競争力を持つ(例:YOLOS-Base の COCO val での 42.0 AP)。
Can Transformer perform 2D object- and region-level recognition from a pure sequence-to-sequence perspective with minimal knowledge about the 2D spatial structure? To answer this question, we present You Only Look at One Sequence (YOLOS), a series of object detection models based on the vanilla Vision Transformer with the fewest possible modifications, region priors, as well as inductive biases of the target task. We find that YOLOS pre-trained on the mid-sized ImageNet-1k dataset only can already achieve quite competitive performance on the challenging COCO object detection benchmark, e.g., YOLOS-Base directly adopted from BERT-Base architecture can obtain 42.0 box AP on COCO val. We also discuss the impacts as well as limitations of current pre-train schemes and model scaling strategies for Transformer in vision through YOLOS. Code and pre-trained models are available at https://github.com/hustvl/YOLOS.
研究の動機と目的
- 画像レベル認識から2D物体検出へ、最小限の空間的帰納バイアスで転移できることを、標準の Vision Transformer が示せることを証明する。
- ViT の出力を2D特徴マップとして再解釈することなく、純粋なシーケンス-to-シーケンス フレームワークで物体検出を実行できることを示す。
- ViT ベースの検出器に対する事前学習方式の影響を評価し、YOLOS を ViT 事前学習戦略のベンチマークとして確立する。
提案手法
- 物体検出のために ViT の CLS トークンを100個の DET トークンに置換する。
- ラベル割り当て時に明示的な2D空間プリオールを避け、検出を集合整列予測(set-p)方式で訓練するために、バイパイドマッチング損失を使用する。
- YOLOS のアーキテクチャは標準の ViT にできるだけ近いままに保ち、必要な検出ヘッドのみを軽量な MLP として実装し、クラスと bbox の予測を行う。
- PATCH トークンに DET トークンを付加し、1D 学習可能位置埋め込みを追加する。標準の Transformer エンコーダ層で訓練する。
- DET トークンと小さなヘッドを除き、ImageNet-1k 事前学習ウェイトからファインチューニングする(これらはランダム初期化)。
実験結果
リサーチクエスチョン
- RQ1事前学習済みの標準の ViT が、重い2D帰納バイアスを用いずに頑健な2D物体検出へ転移できるか?
- RQ2異なる事前学習戦略(教師あり対自己教師あり)が COCO 上の ViT ベース検出器にどのような影響を与えるか?
- RQ3物体検出における ViT の事前学習と転移学習に対するモデルスケーリングの影響は何か?
- RQ4同様の設定で評価した場合、YOLOS は DETR や CNN ベースの検出器とどのように比較されるか?
主な発見
- ImageNet-1k で事前学習した標準の ViT は、最小限の変更で競争力のある COCO 検出性能を達成できる(例:YOLOS-Base は COCO val で 42.0 AP)。
- YOLOS は 100 DET トークンを物体の代理表現として使用し、バイパイドマッチング損失を用い、ViT の出力を 2D 特徴マップへ再解釈することを回避している。
- 事前学習戦略は COCO への転移に大きく影響する。自己教師付き事前学習(例:DINO)は小型モデルでラベル付き監督の性能に近づくことができ、蒸留の利点もある。
- スケーリング戦略の中で、幅方向拡大、均一複合スケーリング(dwr)、高速スケーリング(dw r)は、それぞれ異なるトレードオフを示す。高解像度での空間的注意の優位性のため、事前学習の利得が必ずしも COCO へ直接伝わるとは限らない。
- YOLOS-Ti は超小型 CNN 検出器と競合し、より大きな YOLOS バリアントは DETR の一部の設定で上回ることがあるが、利得はモデルと設定に依存する。
- DET トークンは主に物体の位置情報を伝えるものであり、物体カテゴリ特異的な埋め込みというよりは位置認識可能な物体代理表現としての役割を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。