Skip to main content
QUICK REVIEW

[論文レビュー] Interpretable and Globally Optimal Prediction for Textual Grounding using Image Concepts

Raymond A. Yeh, Jinjun Xiong|arXiv (Cornell University)|Mar 29, 2018
Multimodal Machine Learning Applications被引用数 42
ひとこと要約

論文は、画像の概念スコアマップと分枝限定探索を用いて全ての境界ボックスのグローバルエネルギー最小化としてテキスト grounding を定式化し、厳密推論を実現、より豊かな提案と解釈可能な語彙-画像概念埋め込みを提供する。Flickr 30k Entities と ReferItGame で提出時点の最先端を上回る。

ABSTRACT

Textual grounding is an important but challenging task for human-computer interaction, robotics and knowledge mining. Existing algorithms generally formulate the task as selection from a set of bounding box proposals obtained from deep net based systems. In this work, we demonstrate that we can cast the problem of textual grounding into a unified framework that permits efficient search over all possible bounding boxes. Hence, the method is able to consider significantly more proposals and doesn't rely on a successful first stage hypothesizing bounding box proposals. Beyond, we demonstrate that the trained parameters of our model can be used as word-embeddings which capture spatial-image relationships and provide interpretability. Lastly, at the time of submission, our approach outperformed the current state-of-the-art methods on the Flickr 30k Entities and the ReferItGame dataset by 3.08% and 7.77% respectively.

研究の動機と目的

  • テキスト grounding 問題とその領域提案への依存に動機づける。
  • 画像概念を用いて全境界ボックスを探索する統一的で厳密な推論フレームワークを提案する。
  • 学習済み語彙-概念埋め込みを公開することで解釈可能性を高める。
  • Flickr 30k Entities と ReferItGame で最先端と比べた経験的利得を示す。

提案手法

  • grounding を E(x, y, w) = sum_{s in S} sum_{c in C} w_{s,c} φ_c(x, y, w_r).
  • 画像概念をスコアマップとして表現する (語彙 priors, 幾何的手がかり, セマンティックセグメンテーション, 検出).
  • 効率的な分枝限定アルゴリズム(Alg. 1)でグローバルミニマイザ ˆy = arg min_y E(x, y, w) を解く。
  • IoU損失を伴う構造SVM目的関数でパラメータ w を訓練する。損失拡張推論とカッティングプレーン法を用いて。
  • 分枝限定の下限 bound を加速するために積分画像と事前計算キャッシュを使用。

実験結果

リサーチクエスチョン

  • RQ1大規模な境界ボックス空間に対して厳密最適化で grounding を解けるか、小さな提案集合ではなく?
  • RQ2 画像概念スコアマップは正確で解釈可能な grounding とデータセット間の堅牢な性能を可能にするか?
  • RQ3 学習された w_{s,c} は空間-画像関係を捉える意味ある語彙埋め込みとして機能するか?
  • RQ4 Flickr 30k Entities と ReferItGame で既存の grounding 手法に対する経験的利得は?
  • RQ5 提案手法は実用に十分な計算効率があるか?

主な発見

  • Flickr 30k Entities で最新の精度を達成(Table 1: 51.63% with Prior+Geo+Seg+Det and 53.97% with Prior+Geo+Seg+bDet)。
  • ReferItGame で最新の精度を達成(Table 2: 34.70% with Prior+Geo+Seg+Det)。
  • SCRC, DSPE, GroundeR, CCA などのベースラインを大きく上回る(Table 1 の結果と 2016–2017 手法)。
  • ワード-概念の重み ws,c は解釈可能な語彙埋め込みとして機能し、空間-画像関係を捉える(Fig. 6)。
  • 推論は分枝限定によりグローバル最適性と、競合法と同等またはそれより速い実行時間を提供(計算効率の節)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。