Skip to main content
QUICK REVIEW

[論文レビュー] Exploring Visual Relationship for Image Captioning

Ting Yao, Yingwei Pan|arXiv (Cornell University)|Sep 19, 2018
Multimodal Machine Learning Applications参考文献 37被引用数 49
ひとこと要約

GCN-LSTMを提案する。検出されたオブジェクト間の意味的および空間的関係を活用したグラフ畳み込みネットワークベースのエンコーダで、画像キャプション生成を改善する;COCOでCIDEr-Dの最先端を達成。

ABSTRACT

It is always well believed that modeling relationships between objects would be helpful for representing and eventually describing an image. Nevertheless, there has not been evidence in support of the idea on image description generation. In this paper, we introduce a new design to explore the connections between objects for image captioning under the umbrella of attention-based encoder-decoder framework. Specifically, we present Graph Convolutional Networks plus Long Short-Term Memory (dubbed as GCN-LSTM) architecture that novelly integrates both semantic and spatial object relationships into image encoder. Technically, we build graphs over the detected objects in an image based on their spatial and semantic connections. The representations of each region proposed on objects are then refined by leveraging graph structure through GCN. With the learnt region-level features, our GCN-LSTM capitalizes on LSTM-based captioning framework with attention mechanism for sentence generation. Extensive experiments are conducted on COCO image captioning dataset, and superior results are reported when comparing to state-of-the-art approaches. More remarkably, GCN-LSTM increases CIDEr-D performance from 120.1% to 128.7% on COCO testing set.

研究の動機と目的

  • キャプション生成におけるより豊かな画像理解のためのオブジェクト関係の利用を動機づける。
  • 意味的および空間的グラフを統合した関係認識型画像エンコーダを提案する。
  • グラフベースの注意機構を用いたデコーダでCOCOのキャプション生成性能を向上させる。

提案手法

  • Faster R-CNNでオブジェクトを検出し、領域集合Vを形成する。
  • 検出領域の周りに意味的および空間的グラフを、方向性エッジとラベル付きで構築する。
  • エッジごとのゲートを持つラベル付き有向GCNで領域特徴を洗練させる。
  • 二つの注意機構付きLSTMデコーダを用いて(各グラフごとに一つずつ)キャプションを生成する。
  • 両デコーダの語彙確率を線形結合する後期融合で出力を融合する。

実験結果

リサーチクエスチョン

  • RQ1意味的および空間的なオブジェクト間の関係は、領域レベルの注意だけを用いる場合と比べて画像キャプション生成を改善するか。
  • RQ2関係グラフ上のGCNは、キャプション生成のための領域表現をより有益なものにできるか。
  • RQ3意味的および空間的な関係信号の融合はキャプション品質にどのような影響を与えるか。

主な発見

ModelB@1B@4MRCS
GCN-LSTM (Cross-Entropy)77.437.128.157.2117.121.1
GCN-LSTM (CIDEr-D Optimized)80.938.328.658.5128.722.1
  • GCN-LSTMのバリアントは、COCOにおいて複数の指標でベースライン(LSTM、Up-Down、SCST、ADP-ATT)を上回る。
  • CIDEr-D最適化時、GCN-LSTMは128.7 CIDEr-Dと22.1 SPICEを達成し、従来の最良手法を顕著に凌駕する。
  • 意味的グラフと空間的グラフの両方を後期融合で用いると、単一グラフのバリアントよりさらなる改善が得られる。
  • COCOオンラインテストでは、GCN-LSTMはc5およびc40参照で最高のパフォーマンスを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。