[論文レビュー] Referring Transformer: A One-step Approach to Multi-task Visual Grounding
文脈化されたフレーズクエリを学習し、それらを境界ボックスとマスクへデコードすることにより、 referring expression comprehension (REC) と segmentation (RES) を同時に実行するワン-stage トランスフォーマーフレームワークを導入する。シンプルな事前学習で最先端の結果を達成。
As an important step towards visual reasoning, visual grounding (e.g., phrase localization, referring expression comprehension/segmentation) has been widely explored Previous approaches to referring expression comprehension (REC) or segmentation (RES) either suffer from limited performance, due to a two-stage setup, or require the designing of complex task-specific one-stage architectures. In this paper, we propose a simple one-stage multi-task framework for visual grounding tasks. Specifically, we leverage a transformer architecture, where two modalities are fused in a visual-lingual encoder. In the decoder, the model learns to generate contextualized lingual queries which are then decoded and used to directly regress the bounding box and produce a segmentation mask for the corresponding referred regions. With this simple but highly contextualized model, we outperform state-of-the-arts methods by a large margin on both REC and RES tasks. We also show that a simple pre-training schedule (on an external dataset) further improves the performance. Extensive experiments and ablations illustrate that our model benefits greatly from contextualized information and multi-task training.
研究の動機と目的
- RECとRESを1つのモデルに統合した、シンプルでエンドツーエンドなビジュアル grounding アプローチを動機付ける。
- 視覚-言語トランスフォーマーを活用して、密な proposal ステージやタスク固有のアーキテクチャの必要性を排除する。
- 文脈化されたフレーズクエリとマルチタスク学習が grounding 性能をいかに向上させるかを探る。
- 外部データでの事前学習がRECとRESの性能をさらに向上させることを示す。
提案手法
- 画像特徴とテキスト文脈を融合する視覚-言語エンコーダを使用する。
- 学習可能なバイアスを持つMLPを介して、フレーズ埋め込みと文脈的手がかりからフレーズ特異的クエリを生成する。
- クロスモーダルアテンションを備えたマルチタスクトランスフォーマーデコーダを用いて、境界ボックス(REC)とセグメンテーションマスク(RES)の両方へデコードする。
- 検出にはL1とIoU損失の組み合わせ、セグメンテーションには focal/Dice 損失を用いて、RECとRESを jointly 学習する。
- 下流の性能を向上させるために、地域説明データセットでトランスフォーマーを任意に事前学習させる。)
実験結果
リサーチクエスチョン
- RQ1密なアンカーやHungarianマッチングなしで、単一のワン-stage トランスフォーマーモデルがRECとRESを共同で扱えるか?
- RQ2画像内の複数の referring expressions に対して、文脈化されたクロスモーダルクエリが grounding 精度を向上させるか?
- RQ3RECとRESの性能に対するマルチタスク学習と事前学習の影響は何か?
- RQ4標準のREC/RESベンチマークで、従来の最先端手法と比べてモデルはどのように性能を示すか?
主な発見
- 提案された Referring Transformer は、複数のデータセット(例:RefCOCO、RefCOCO+、RefCOCOg)にわたるRECとRESで、最先端手法を大幅に上回る。
- マルチタスク同時学習は、RECとRESの両方を改善し、タスク間の不一致を減らす。
- Visual Genomeでの単純な事前学習スケジュールが性能をさらに向上させ、いくつかの分割で顕著な利得をもたらす。
- モデルは複数の referring expressions の並列デコードを可能にし、リアルタイム推論を実現する。
- アブレーションにより、文脈化されたフレーズクエリとクエリエンコーダ/デコーダ設計が性能にとって重要であることが示される。
- 本論文に報告されたRECで最大8.5% absoluteのゲイン、RESで19.4%のゲインを含む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。