QUICK REVIEW

[論文レビュー] Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering

Medhini Narasimhan, Svetlana Lazebnik|arXiv (Cornell University)|Nov 1, 2018

Multimodal Machine Learning Applications被引用数 130

ひとこと要約

論文はFVQAの質問に答えるために事実のサブグラフ上で推論するグラフ畳み込みネットワーク（GCN）アプローチを導入し、単一の真実の事実を予測するのではなく複数の事実を共同評価することで、FVQAの従来の最先端より約7%高い精度を達成する。

ABSTRACT

Accurately answering a question about a given image requires combining observations with general knowledge. While this is effortless for humans, reasoning with general knowledge remains an algorithmic challenge. To advance research in this direction a novel `fact-based' visual question answering (FVQA) task has been introduced recently along with a large set of curated facts which link two entities, i.e., two possible answers, via a relation. Given a question-image pair, deep network techniques have been employed to successively reduce the large set of facts until one of the two entities of the final remaining fact is predicted as the answer. We observe that a successive process which considers one fact at a time to form a local decision is sub-optimal. Instead, we develop an entity graph and use a graph convolutional network to `reason' about the correct answer by jointly considering all entities. We show on the challenging FVQA dataset that this leads to an improvement in accuracy of around 7% compared to the state of the art.

研究の動機と目的

画像だけでなく外部知識を活用してFVQAを動機づけ、解決する。
複数の候補事実を共同で推論することにより、1つの正解事実への依存を減らす。
知識ベースのグラフ構造を活用して情報を共有し、説明可能性を向上させる。

提案手法

トップ100の関連事実セットを画像と質問の組み合わせに対してGloVeベースの語彙類似度を用いて取得する。
推定される関係を予測して取得された事実を小さなサブグラフに絞り込む。
フィルタリングされた事実から得られる一意のエンティティをノードとし、同じ事実に現れるエンティティを結ぶエッジを持つエンティティグラフを構築する。
エンティティグラフ上で情報を伝搬するGCNを適用し、その後MLPで解答エンティティを予測する。
関係予測器と解答予測器を別々に学習させる。解答部品のエンドツーエンド学習はGCNとMLPコンポーネントで実現される。

実験結果

リサーチクエスチョン

RQ1GCNを介して候補事実の集合を共同推論することで、単一の真実の事実を予測するのと比べてFVQAの解答精度を向上させられるか。
RQ2視覚概念、質問埋め込み、エンティティ埋め込みをグラフノードに統合することで解答精度がどの程度向上するか。
RQ3候補事実の取得サイズと予測される関係が全体性能に与える影響はどの程度か。

主な発見

提案モデルはFVQAデータセットでベースライン（FVQA、STTF）を約7%上回る。
最良の設定はFVQAでTop-1精度72.97%、Top-3精度83.01%を達成（モデル13）。
ノード表現に視覚概念特徴を含めると精度が大幅に向上（相対約20%のゲイン）。
GCNベースの共同推論により候補事実間で情報を共有でき、説明可能性と同義語・多義語への頑健性が向上。
予測時に真実の事実を避け、複数の関連事実を推論して最終解答を導く。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。