Skip to main content
QUICK REVIEW

[論文レビュー] Real-Time Referring Expression Comprehension by Single-Stage Grounding Network

Xinpeng Chen, Lin Ma|arXiv (Cornell University)|Dec 8, 2018
Multimodal Machine Learning Applications被引用数 63
ひとこと要約

SSGは、領域提案なしで画像内の指示表現を局所化するエンドツーエンドのシングルステージモデルを提示し、競争力のある精度とリアルタイム速度を実現する。ReferItGameでの最先端、GPU下でRefCOCOは1秒あたり40のリファレンスを達成。

ABSTRACT

In this paper, we propose a novel end-to-end model, namely Single-Stage Grounding network (SSG), to localize the referent given a referring expression within an image. Different from previous multi-stage models which rely on object proposals or detected regions, our proposed model aims to comprehend a referring expression through one single stage without resorting to region proposals as well as the subsequent region-wise feature extraction. Specifically, a multimodal interactor is proposed to summarize the local region features regarding the referring expression attentively. Subsequently, a grounder is proposed to localize the referring expression within the given image directly. For further improving the localization accuracy, a guided attention mechanism is proposed to enforce the grounder to focus on the central region of the referent. Moreover, by exploiting and predicting visual attribute information, the grounder can further distinguish the referent objects within an image and thereby improve the model performance. Experiments on RefCOCO, RefCOCO+, and RefCOCOg datasets demonstrate that our proposed SSG without relying on any region proposals can achieve comparable performance with other advanced models. Furthermore, our SSG outperforms the previous models and achieves the state-of-art performance on the ReferItGame dataset. More importantly, our SSG is time efficient and can ground a referring expression in a 416*416 image from the RefCOCO dataset in 25ms (40 referents per second) on average with a Nvidia Tesla P40, accomplishing more than 9* speedups over the existing multi-stage models.

研究の動機と目的

  • 領域提案なしでリアルタイムな指示表現のグラウンドを実現する動機づけ。
  • マルチモーダルエンコード、インタラクター、グラウンダーを備えたエンドツーエンドのSingle-Stage Groundingネットワーク(SSG)を提案。
  • 導入したいガイド付きアテンションと属性予測を取り入れ、局所化の精度を向上させる。
  • 標準データセット(RefCOCO、RefCOCO+、RefCOCOg、ReferItGame)で効率と競争力のある精度を示す。

提案手法

  • YOLO-v3ベースのバックボーンで画像をエンコードし、局所的な領域特徴を取得。
  • EMLo埋め込みを用いた2層Bi-LSTMで指示表現をエンコード。
  • 注意機構を備えたマルチモーダルインタラクターを使用し、画像とテキストの結合表現を生成。
  • 結合表現から直接バウンディングボックスと信頼度スコアを予測して指示表現をグラウンド。
  • 補助損失を適用:局在化(MSE)、信頼度(二値交差エントロピー)、ガイド付きアテンション(セントラーベース)、属性予測(多ラベル)。
  • 損失の重み付き和で訓練し、推論は局在化モジュールのみを有効にして実行。

実験結果

リサーチクエスチョン

  • RQ1領域提案なしでエンドツーエンドのシングルステージモデルは競争力のグラウンディング精度を達成できるか?
  • RQ2指示中心へのガイド付きアテンションは局在化を改善するか?
  • RQ3補助的な属性予測は referents の曖昧さをさらに解消し、精度を高めるか?
  • RQ4シングルステージアプローチは標準データセットでリアルタイムのグラウンディングに十分な計算効率を持つか?

主な発見

  • SSGは領域提案なしでRefCOCO、RefCOCO+、RefCOCOgで競争的な結果を達成。
  • SSGはReferItGameデータセットで最先端の性能を達成。
  • GPU加速により、SSGはRefCOCO(416×416入力)で約40 referents/秒で動作。
  • アブレーション研究は、信頼度、ガイド付きアテンション、属性予測損失を追加することで改善を示す。
  • 推論時間はマルチステージ手法より大幅に速く、リアルタイムのグラウンディング能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。