[論文レビュー] GRiT: A Generative Region-to-text Transformer for Object Understanding
GRiTはオブジェクトの領域からテキストへの記述を生成することにより、オープンセットのオブジェクト理解を提案し、物体検出と密なキャプショニングを統合し、COCOで60.4 AP、Visual Genomeで15.5 mAPを達成します。
This paper presents a Generative RegIon-to-Text transformer, GRiT, for object understanding. The spirit of GRiT is to formulate object understanding as pairs, where region locates objects and text describes objects. For example, the text in object detection denotes class names while that in dense captioning refers to descriptive sentences. Specifically, GRiT consists of a visual encoder to extract image features, a foreground object extractor to localize objects, and a text decoder to generate open-set object descriptions. With the same model architecture, GRiT can understand objects via not only simple nouns, but also rich descriptive sentences including object attributes or actions. Experimentally, we apply GRiT to object detection and dense captioning tasks. GRiT achieves 60.4 AP on COCO 2017 test-dev for object detection and 15.5 mAP on Visual Genome for dense captioning. Code is available at https://github.com/JialianW/GRiT
研究の動機と目的
- 自由形式の領域記述を可能にすることで、閉鎖集合のオブジェクト分類を超える動機づけを説明する。
- オブジェクト理解を <region, text> のペアとして定式化し、オブジェクトを記述する。
- オブジェクト検出と密なキャプショニングの両方を扱う統一フレームワークを開発する。
- 事前定義されたカテゴリリストを用いずに、オブジェクト概念をオープンセットとして説明的に表現できるようにする。
- 単一のモデル内でタスク固有の説明をどのように生成できるかを検討する。
- 新しい概念に対するゼロショット学習と増分学習の可能性を探る。
提案手法
- 3つのコンポーネントからなるアーキテクチャ:ビジュアルエンコーダ、フォアグラウンドオブジェクト抽出器、テキストデコーダ。
- オブジェクト特徴はマルチスケールの視覚特徴から切り出され、デコーダが自己回帰的にテキストトークンを生成する。
- テキストは6層のトランスフォーマーを介して WordPiece トークンとして生成され、スタイルを制御するための [task] 始動 token で短い説明と長い説明を切り替える。
- 特別な開始トークン {[task]i} は、複数タスクの訓練を導き、タスク固有の記述を生成する。
- 訓練は生成トークンに対する物体検出損失 (L_o) と言語モデリング損失 (L_t) を組み合わせ、ラベル平滑化を0.1とする。
- 推論はテキストデコーダにビーム探索を用いて、必要に応じて各オブジェクトに複数の説明を生成する。
実験結果
リサーチクエスチョン
- RQ1GRiTは、事前に定義されたカテゴリリストなしで領域提案に対して記述的なテキストを生成することで、オープンセットのオブジェクト理解を実現できるか?
- RQ2単一のモデルはオブジェクト検出と密なキャプショニングを統合できるか、訓練時および推論時にはタスクのスタイルをどのように制御すべきか?
- RQ3事前学習、オブジェクト特徴サイズ、ビーム探索、増分学習が性能に与える影響はどのようなものか?
- RQ4GRiTはCOCOとVisual Genomeにおいて、閉鎖セット検出器や従来の密なキャプショニングモデルとどう比較されるか?
- RQ5GIT事前学習済みのバックボーンを領域レベルの記述に適応させることで、ゼロショットのオブジェクト理解が実現可能か?
主な発見
- GRiTはCOCOの物体検出で60.4 APを達成し、閉鎖集合検出器と比肩する。
- GRiTはVisual Genomeの密なキャプショニングで15.5 mAPを達成し、従来の密なキャプショニングモデルを上回る。
- 開始トークンを使用してタスクスタイルを制御することで、混在出力ではなくタスク間で一貫した記述を実現できる。
- MAE事前学習は、スケールを横断してGRiTの性能を強化し、GIT事前学習などの代替よりもいくつかの設定で優れている。
- GRiTはアーキテクチャを変更せずに物体検出と密なキャプショニングを別々に訓練でき、タスク固有の記述品質を維持する。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。