Skip to main content
QUICK REVIEW

[論文レビュー] Referring Transformer: A One-step Approach to Multi-task Visual Grounding

Muchen Li, Leonid Sigal|arXiv (Cornell University)|Jun 6, 2021
Multimodal Machine Learning Applications参考文献 58被引用数 73
ひとこと要約

文脈化されたフレーズクエリを学習し、それらを境界ボックスとマスクへデコードすることにより、 referring expression comprehension (REC) と segmentation (RES) を同時に実行するワン-stage トランスフォーマーフレームワークを導入する。シンプルな事前学習で最先端の結果を達成。

ABSTRACT

As an important step towards visual reasoning, visual grounding (e.g., phrase localization, referring expression comprehension/segmentation) has been widely explored Previous approaches to referring expression comprehension (REC) or segmentation (RES) either suffer from limited performance, due to a two-stage setup, or require the designing of complex task-specific one-stage architectures. In this paper, we propose a simple one-stage multi-task framework for visual grounding tasks. Specifically, we leverage a transformer architecture, where two modalities are fused in a visual-lingual encoder. In the decoder, the model learns to generate contextualized lingual queries which are then decoded and used to directly regress the bounding box and produce a segmentation mask for the corresponding referred regions. With this simple but highly contextualized model, we outperform state-of-the-arts methods by a large margin on both REC and RES tasks. We also show that a simple pre-training schedule (on an external dataset) further improves the performance. Extensive experiments and ablations illustrate that our model benefits greatly from contextualized information and multi-task training.

研究の動機と目的

  • RECとRESを1つのモデルに統合した、シンプルでエンドツーエンドなビジュアル grounding アプローチを動機付ける。
  • 視覚-言語トランスフォーマーを活用して、密な proposal ステージやタスク固有のアーキテクチャの必要性を排除する。
  • 文脈化されたフレーズクエリとマルチタスク学習が grounding 性能をいかに向上させるかを探る。
  • 外部データでの事前学習がRECとRESの性能をさらに向上させることを示す。

提案手法

  • 画像特徴とテキスト文脈を融合する視覚-言語エンコーダを使用する。
  • 学習可能なバイアスを持つMLPを介して、フレーズ埋め込みと文脈的手がかりからフレーズ特異的クエリを生成する。
  • クロスモーダルアテンションを備えたマルチタスクトランスフォーマーデコーダを用いて、境界ボックス(REC)とセグメンテーションマスク(RES)の両方へデコードする。
  • 検出にはL1とIoU損失の組み合わせ、セグメンテーションには focal/Dice 損失を用いて、RECとRESを jointly 学習する。
  • 下流の性能を向上させるために、地域説明データセットでトランスフォーマーを任意に事前学習させる。)

実験結果

リサーチクエスチョン

  • RQ1密なアンカーやHungarianマッチングなしで、単一のワン-stage トランスフォーマーモデルがRECとRESを共同で扱えるか?
  • RQ2画像内の複数の referring expressions に対して、文脈化されたクロスモーダルクエリが grounding 精度を向上させるか?
  • RQ3RECとRESの性能に対するマルチタスク学習と事前学習の影響は何か?
  • RQ4標準のREC/RESベンチマークで、従来の最先端手法と比べてモデルはどのように性能を示すか?

主な発見

  • 提案された Referring Transformer は、複数のデータセット(例:RefCOCO、RefCOCO+、RefCOCOg)にわたるRECとRESで、最先端手法を大幅に上回る。
  • マルチタスク同時学習は、RECとRESの両方を改善し、タスク間の不一致を減らす。
  • Visual Genomeでの単純な事前学習スケジュールが性能をさらに向上させ、いくつかの分割で顕著な利得をもたらす。
  • モデルは複数の referring expressions の並列デコードを可能にし、リアルタイム推論を実現する。
  • アブレーションにより、文脈化されたフレーズクエリとクエリエンコーダ/デコーダ設計が性能にとって重要であることが示される。
  • 本論文に報告されたRECで最大8.5% absoluteのゲイン、RESで19.4%のゲインを含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。