QUICK REVIEW

[論文レビュー] Referring Transformer: A One-step Approach to Multi-task Visual Grounding

Muchen Li, Leonid Sigal|arXiv (Cornell University)|Jun 6, 2021

Multimodal Machine Learning Applications参考文献 58被引用数 73

ひとこと要約

文脈化されたフレーズクエリを学習し、それらを境界ボックスとマスクへデコードすることにより、 referring expression comprehension (REC) と segmentation (RES) を同時に実行するワン-stage トランスフォーマーフレームワークを導入する。シンプルな事前学習で最先端の結果を達成。

ABSTRACT

As an important step towards visual reasoning, visual grounding (e.g., phrase localization, referring expression comprehension/segmentation) has been widely explored Previous approaches to referring expression comprehension (REC) or segmentation (RES) either suffer from limited performance, due to a two-stage setup, or require the designing of complex task-specific one-stage architectures. In this paper, we propose a simple one-stage multi-task framework for visual grounding tasks. Specifically, we leverage a transformer architecture, where two modalities are fused in a visual-lingual encoder. In the decoder, the model learns to generate contextualized lingual queries which are then decoded and used to directly regress the bounding box and produce a segmentation mask for the corresponding referred regions. With this simple but highly contextualized model, we outperform state-of-the-arts methods by a large margin on both REC and RES tasks. We also show that a simple pre-training schedule (on an external dataset) further improves the performance. Extensive experiments and ablations illustrate that our model benefits greatly from contextualized information and multi-task training.

研究の動機と目的

RECとRESを1つのモデルに統合した、シンプルでエンドツーエンドなビジュアル grounding アプローチを動機付ける。
視覚-言語トランスフォーマーを活用して、密な proposal ステージやタスク固有のアーキテクチャの必要性を排除する。
文脈化されたフレーズクエリとマルチタスク学習が grounding 性能をいかに向上させるかを探る。
外部データでの事前学習がRECとRESの性能をさらに向上させることを示す。

提案手法

画像特徴とテキスト文脈を融合する視覚-言語エンコーダを使用する。
学習可能なバイアスを持つMLPを介して、フレーズ埋め込みと文脈的手がかりからフレーズ特異的クエリを生成する。
クロスモーダルアテンションを備えたマルチタスクトランスフォーマーデコーダを用いて、境界ボックス（REC）とセグメンテーションマスク（RES）の両方へデコードする。
検出にはL1とIoU損失の組み合わせ、セグメンテーションには focal/Dice 損失を用いて、RECとRESを jointly 学習する。
下流の性能を向上させるために、地域説明データセットでトランスフォーマーを任意に事前学習させる。）

実験結果

リサーチクエスチョン

RQ1密なアンカーやHungarianマッチングなしで、単一のワン-stage トランスフォーマーモデルがRECとRESを共同で扱えるか？
RQ2画像内の複数の referring expressions に対して、文脈化されたクロスモーダルクエリが grounding 精度を向上させるか？
RQ3RECとRESの性能に対するマルチタスク学習と事前学習の影響は何か？
RQ4標準のREC/RESベンチマークで、従来の最先端手法と比べてモデルはどのように性能を示すか？

主な発見

提案された Referring Transformer は、複数のデータセット（例：RefCOCO、RefCOCO+、RefCOCOg）にわたるRECとRESで、最先端手法を大幅に上回る。
マルチタスク同時学習は、RECとRESの両方を改善し、タスク間の不一致を減らす。
Visual Genomeでの単純な事前学習スケジュールが性能をさらに向上させ、いくつかの分割で顕著な利得をもたらす。
モデルは複数の referring expressions の並列デコードを可能にし、リアルタイム推論を実現する。
アブレーションにより、文脈化されたフレーズクエリとクエリエンコーダ/デコーダ設計が性能にとって重要であることが示される。
本論文に報告されたRECで最大8.5% absoluteのゲイン、RESで19.4%のゲインを含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。