[論文レビュー] Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering
本論文は、知識ベースからの複数の事実を同時に推論するグラフ畳み込みネットワーク(GCN)ベースの手法を提案し、事実ベースの VQA 質問に答える。FVQA で最先端を約7%上回る。
Accurately answering a question about a given image requires combining observations with general knowledge. While this is effortless for humans, reasoning with general knowledge remains an algorithmic challenge. To advance research in this direction a novel `fact-based' visual question answering (FVQA) task has been introduced recently along with a large set of curated facts which link two entities, i.e., two possible answers, via a relation. Given a question-image pair, deep network techniques have been employed to successively reduce the large set of facts until one of the two entities of the final remaining fact is predicted as the answer. We observe that a successive process which considers one fact at a time to form a local decision is sub-optimal. Instead, we develop an entity graph and use a graph convolutional network to `reason' about the correct answer by jointly considering all entities. We show on the challenging FVQA dataset that this leads to an improvement in accuracy of around 7% compared to the state of the art.
研究の動機と目的
- 視覚的観察と一般的知識のギャップを、事実の構造化知識ベースを活用して埋める。
- 1つの事実の取得を超え、複数の候補事実に対する共同推論へ。
- 類義語・同形語にも対応して関連する事実を頑健に取得するために語の埋め込みを利用する。
- グラフ構造化推論を取り入れることでFVQAデータセットにおける精度の向上を示す。
- 事実グラフにおける情報共有伝播を通じて説明可能性を向上させる。
提案手法
- 質問-画像のペアに対して、質問、画像概念、事実語の間のGloVe埋め込みのコサイン類似度に基づいてトップ100の候補事実を取得する。
- 質問に対して予測された関係と一致する関係を持つ事実のサブセットに絞り込む。
- 候補事実から得られる固有のエンティティをノードとし、同じ事実に現れるエンティティを結ぶエッジを持つエンティティグラフを構築する。
- 各ノードを画像概念、質問、エンティティ埋め込みの連結によって表現し、ノード表現を生成するためにGraph Convolutional Networkを実行する。
- GCNの出力をMLPに通して、どのノード(エンティティ)が答えかを予測する。
- 関係予測器と答え予測器を別々に訓練する;答え予測器のエンドツーエンド訓練。
実験結果
リサーチクエスチョン
- RQ1KB事実のサブグラフ上でのGCN推論は、単一事実取得法と比べてFVQA風のビジュアル質問応答を改善するか?
- RQ2複数の候補事実の共同推論は、以前のアプローチより同義語や同形語の扱いを改善するか?
- RQ3視覚概念と質問/エンティティ埋め込みを含めることが、GCNベースのフレームワークにおける回答精度に及ぼす影響は何か?
主な発見
| Model | @1 Accuracy | @3 Accuracy |
|---|---|---|
| FVQA baseline (Wang et al. 2018 FVQA) | 56.91 | 64.65 |
| STTF (Straight to the Facts) | 62.20 | 75.60 |
| Ours (final ablation 13: Q, VC, Entity, GCN, gt relation) | 72.97 | 83.01 |
| Human | 77.99 | - |
- 提案されたGCNベースの手法は、FVQAデータセットで最先端に対して約7%の精度向上をもたらす。
- 上位100件の事実と関連付け制約から導出された最大200のエンティティのサブグラフを用いると、真の事実のリコール率が高くなる(top-100で84.8%)。
- 視覚概念特徴の含有はパフォーマンスを大幅に向上させる(追加時に約20%の改善)。
- 最良のアブレーション(Q、VC、エンティティ埋め込みと2層のGCNおよびMLPを含む)は、FVQAでトップ1精度72.97%、トップ3精度83.01%を達成。
- GloVe埋め込みによる同義語・同形語の処理は、質問と事実の一致を改善し、同義語の質問や同形語に対してキーワードベースのベースラインを上回る。
- 3段階のプロセス(事実取得、関係予測、GCNベースの答え予測)は堅牢で、失敗モードは主にいずれかの単独のステップのエラーによる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。