QUICK REVIEW

[論文レビュー] C-VQA: A Compositional Split of the Visual Question Answering (VQA) v1.0 Dataset

Aishwarya Agrawal, Aniruddha Kembhavi|arXiv (Cornell University)|Apr 26, 2017

Multimodal Machine Learning Applications参考文献 32被引用数 47

ひとこと要約

この論文では、既存のVQAモデルが見たことのある概念の未確認組み合わせに一般化できる能力を評価するための、VQA v1.0データセットの構成的分割であるC-VQAを紹介している。テストQAペアが構成的に新規であるようにトレーニングとテストの分割を再編成することで、著者らは、標準ベンチマークで高い性能を示すにもかかわらず、真の構成的一般化能力に欠けることによる、既存のVQAモデルが顕著な性能低下を示すことを実証した。

ABSTRACT

Visual Question Answering (VQA) has received a lot of attention over the past couple of years. A number of deep learning models have been proposed for this task. However, it has been shown that these models are heavily driven by superficial correlations in the training data and lack compositionality -- the ability to answer questions about unseen compositions of seen concepts. This compositionality is desirable and central to intelligence. In this paper, we propose a new setting for Visual Question Answering where the test question-answer pairs are compositionally novel compared to training question-answer pairs. To facilitate developing models under this setting, we present a new compositional split of the VQA v1.0 dataset, which we call Compositional VQA (C-VQA). We analyze the distribution of questions and answers in the C-VQA splits. Finally, we evaluate several existing VQA models under this new setting and show that the performances of these models degrade by a significant amount compared to the original VQA setting.

研究の動機と目的

既存のVQAモデルにおける構成性の欠如に起因する、表面的なデータ相関に依存する一般化の欠如を是正すること。
テストQAペアがトレーニングで見られた概念の新しい組み合わせであることを保証することで、構成的一般化を強制する新しいベンチマークデータセットC-VQAを構築すること。
現在のVQAモデルがトレーニング中に一緒に存在しなかった概念の未確認組み合わせに、どの程度一般化できるかを評価すること。
視覚的質問応答における構成的一般化の測定のための標準化された評価プロトコルを提供すること。
最新のモデルですら、この新しい構成的設定において、効果的な一般化ができないことを実証すること。

提案手法

テストQAペアが構成的に新規であるように、VQA v1.0データセットをトレーニング、検証、テストに再分割した。すなわち、完全なQAペアはトレーニングに存在しないが、個々の概念は存在する。
各テストQAペアが、トレーニング時に個別に見られた概念（例：オブジェクト、属性、関係）を同じ組み合わせで組み合わせたものであることを保証した。
元の画像－質問－回答トリプル構造を維持しながら、構成的新規性を確保するために分割を再割り当てした。
概念レベルの分析を用いて、テストの質問がトレーニングで存在したが同じQAペアで一緒に見られなかった概念の組み合わせを含んでいることを確認した。
既存の複数のVQAモデル（例：SAN、NMN、MCB、HieCoAtt）を、元のVQA v1.0と新しいC-VQAの両方の分割でトレーニングおよび評価し、性能を比較した。
「何色か？」、「何個か？」、「はい／いいえ」などの質問タイプごとに性能低下を定量化し、構成性下でのモデルの失敗モードを分析した。

実験結果

リサーチクエスチョン

RQ1既存のVQAモデルは、トレーニング時に見られた概念の新しい組み合わせのQAペアに対して、どの程度一般化できるか？
RQ2最新のモデルにおいて、C-VQAベンチマークでの性能は、元のVQA v1.0テストセットでの性能と比べてどの程度異なるか？
RQ3「何色か？」、「何個か？」、「はい／いいえ」などの質問タイプのうち、構成的一般化下で最も顕著な性能低下を示すのはどれか？
RQ4アーキテクチャ的に構成的であるように設計されたモデル（例：ニューラルモジュールネットワーク）でさえ、C-VQA設定下で失敗する理由は何か？
RQ5VQA v1.0とC-VQAの間で、回答と質問タイプの分布にどのような違いがあり、それがモデルの一般化にどのような影響を与えるか？

主な発見

評価されたすべてのVQAモデルが、C-VQAにおいてVQA v1.0と比較して顕著な性能低下を示した。全体の正確度は最大で10.8ポイント低下した（例：MCBでは60.97％から54.15％に低下）。
最も顕著な性能低下は、「どの部屋ですか？」（NMNで33.28％低下）や「昼間ですか？」（深層LSTM Q + norm Iで29.52％低下）といった質問で観察され、空間的および時間的概念の未確認の組み合わせに対する失敗を示している。
強い言語的バイアスを持つモデル（例：「どの部屋ですか？」に対して「キッチン」が一般的な回答）は、C-VQAで「リビングルーム」のような新しい回答に一般化できない。
構成的推論を意図して設計されたモデル（例：NMN）ですらC-VQAで性能を発揮できないことから、追加のアーキテクチャ的インダクティブバイアス、もしくはデータバイアス低減の手法の導入が求められることが示唆された。
VQA v1.0とC-VQAの間でモデルの順位が入れ替わっている：例えば、SANはC-VQAではNMN や深層LSTMモデルよりも劣る性能を示しており、標準ベンチマークでの性能が構成的一般化能力を予測しないことを示している。
「数え上げ」系の質問では、MCBはVQA v1.0では大多数のモデルを上回るが、C-VQAでは他のモデルに劣る結果となった。これは、構成性の課題が質問タイプによって異なることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。