QUICK REVIEW

[論文レビュー] Learning Conditioned Graph Structures for Interpretable Visual Question\n Answering

Will Norcliffe-Brown, Efstathios Vafeias|arXiv (Cornell University)|Jun 19, 2018

Multimodal Machine Learning Applications被引用数 109

ひとこと要約

この論文は、質問条件付きの画像グラフを生成するグラフ学習器を提案し、グラフ畳込みを用いて解釈可能なオブジェクト関係からVQAの質問に答え、VQA v2.0で競争力のある結果を達成する。

ABSTRACT

Visual Question answering is a challenging problem requiring a combination of\nconcepts from Computer Vision and Natural Language Processing. Most existing\napproaches use a two streams strategy, computing image and question features\nthat are consequently merged using a variety of techniques. Nonetheless, very\nfew rely on higher level image representations, which can capture semantic and\nspatial relationships. In this paper, we propose a novel graph-based approach\nfor Visual Question Answering. Our method combines a graph learner module,\nwhich learns a question specific graph representation of the input image, with\nthe recent concept of graph convolutions, aiming to learn image representations\nthat capture question specific interactions. We test our approach on the VQA v2\ndataset using a simple baseline architecture enhanced by the proposed graph\nlearner module. We obtain promising results with 66.18% accuracy and\ndemonstrate the interpretability of the proposed method. Code can be found at\ngithub.com/aimbrain/vqa-project.\n

研究の動機と目的

質問特有の画像グラフを学習する、グラフベースで解釈可能なVQAモデルを導入する。
関連するオブジェクト間の関係を横断して情報を伝播させるためにグラフ畳込みを活用する。
学習されたノードとエッジを説明として可視化することで解釈可能性を示す。

提案手法

画像内のオブジェクトを特徴をもつグラフノードとして表現し、学習された関数 F を介して質問条件付きの隣接行列 A を学習する。
Aの行に対するtop-mランキングを用いて各ノードの疎な近傍を計算する。
疑似座標に条件付けられたガウスカーネルを用いたカーネルベースのパッチ演算子で空間的グラフ畳込みを適用する。
ノード特徴を最大プーリングで集約してグラフ表現を形成し、それを質問埋め込みと融合して回答を分類する。
各質問に対して複数の有効な回答があり得る場合に適したマルチラベルソフトロスを用いて訓練する。

実験結果

リサーチクエスチョン

RQ1関連するオブジェクト間相互作用に焦点を当てることで、質問条件付きグラフ構造はVQAを改善できるか？
RQ2動的で疎なグラフ接続を学習することは、より解釈可能なVQA予測につながるか？
RQ3グラフカーネル数と近傍サイズがVQAの性能に与える影響は何か？
RQ4提案されたグラフベースのアプローチは、VQA v2.0におけるアテンションベースおよび固定グラフのベースラインとどう比較されるか？

主な発見

回答タイプ	すべて	Y/N	数	その他
ReasonNet	64.61	78.86	41.98	57.39
Bottom-Up	65.67	82.20	43.90	56.26
Counting module	68.41	83.56	51.39	59.11
kNN graph	61.00	79.35	41.63	49.70
Attention	61.90	79.87	42.48	50.95
Ours	66.18	82.91	47.13	56.22

モデルはVQA v2.0のテストセットで66.18%の精度を達成する。
ReasonNet、Bottom-Up、Countingモジュールを含むいくつかのベースラインを総合精度で上回る。
観察された最適設定：K=8カーネルとm=16近傍。
学習されたグラフノードとエッジを重要なオブジェクトと関係として可視化することで解釈可能性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。