QUICK REVIEW

[論文レビュー] Learning Conditioned Graph Structures for Interpretable Visual Question Answering

Will Norcliffe-Brown, Efstathios Vafeias|arXiv (Cornell University)|Jun 19, 2018

Multimodal Machine Learning Applications被引用数 150

ひとこと要約

本論文は、VQAのために質問条件付き画像グラフを構築するグラフ学習器を導入し、解釈可能なグラフ畳み込みを実現し、VQA v2 テストセットで66.18%の精度を達成します。

ABSTRACT

Visual Question answering is a challenging problem requiring a combination of concepts from Computer Vision and Natural Language Processing. Most existing approaches use a two streams strategy, computing image and question features that are consequently merged using a variety of techniques. Nonetheless, very few rely on higher level image representations, which can capture semantic and spatial relationships. In this paper, we propose a novel graph-based approach for Visual Question Answering. Our method combines a graph learner module, which learns a question specific graph representation of the input image, with the recent concept of graph convolutions, aiming to learn image representations that capture question specific interactions. We test our approach on the VQA v2 dataset using a simple baseline architecture enhanced by the proposed graph learner module. We obtain promising results with 66.18% accuracy and demonstrate the interpretability of the proposed method. Code can be found at github.com/aimbrain/vqa-project.

研究の動機と目的

意味論的および空間的関係を学習されたグラフでモデル化することによる解釈可能なVQAの動機付け。
質問に条件付けされたエッジを用いて関連する物体の相互作用を捉えるグラフ学習器を提案。
学習されたグラフ上でグラフ畳み込みを統合して質問意識画像表現を生成。
学習したノードとエッジを可視化して解釈性を示し、VQA v2のベースラインと比較。

提案手法

画像を特徴と空間座標を持つ物体境界ボックスとして表現。
単語埋め込みと動的GRUで質問を符号化してqを得る。
[v; q]からの結合埋め込みeにより質問条件付き隣接行列Aを学習し、A = EE^Tとし、トップm隣接者を取って疎にする。
パッチ演算子とガウスカーネルを用いた疑似座標u(i,j)上のK- kernel空間グラフ畳込みを実行してHを生成。
最大プーリングされたグラフ特徴h_maxを計算し、要素ごとの積でqと融合し、2層MLPで分類。
各質問に対して複数の妥当な回答があり得る多ラベルソフト損失で訓練。

実験結果

リサーチクエスチョン

RQ1学習済みで質問条件付きのグラフ構造は、固定またはヒューリスティックなグラフ構築よりVQAの推論を改善できるか。
RQ2スパースで解釈可能なグラフ上のグラフベースのメッセージ伝搬を統合することで、解釈性を可能にしつつVQA v2で競争力のある精度を達成できるか。

主な発見

回答タイプ	全件	Y/N	数	その他
ReasonNet	64.61	78.86	41.98	57.39
Bottom-Up	65.67	82.20	43.90	56.26
Counting module	68.41	83.56	51.39	59.11
kNN graph	61.00	79.35	41.63	49.70
Attention	61.90	79.87	42.48	50.95
Ours	66.18	82.91	47.13	56.22

VQA v2 テストセットで66.18%の精度を達成し、最先端のベースラインと競合。
学習可能で質問特異的なグラフを学ぶことで、非グラフベースや単純なグラフベースのベースラインに比べて関連する物体や関係に焦点が絞られる。
グラフアテンションとエッジ重みは、モデルがどの物体と関係に依存しているかの解釈可能な可視化を提供。
数値的なカウント型質問において、いくつかのベースラインと比較して顕著に良好な性能を示す。
k最近傍グラフと単純なアテンションベースのベースラインは、学習された質問条件付きグラフに劣る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。