QUICK REVIEW

[論文レビュー] Counterfactual Samples Synthesizing for Robust Visual Question Answering

Long Chen, Xin Yan|arXiv (Cornell University)|Mar 14, 2020

Multimodal Machine Learning Applications参考文献 41被引用数 27

ひとこと要約

本稿では、視覚的質問応答（VQA）モデルの性能を向上させるために、画像内の重要なオブジェクトをマスキングすること（V-CSS）または質問内のキーワードを[MASK]に置き換えること（Q-CSS）によって、反事実的訓練サンプルを生成するモデルに依存しない反事実的サンプル生成（CSS）訓練方式を提案する。この手法により、視覚的説明可能性と質問への感受性の両方が向上し、VQA-CP v2で58.95%という新たなSOTA成績を達成した。

ABSTRACT

Despite Visual Question Answering (VQA) has realized impressive progress over the last few years, today's VQA models tend to capture superficial linguistic correlations in the train set and fail to generalize to the test set with different QA distributions. To reduce the language biases, several recent works introduce an auxiliary question-only model to regularize the training of targeted VQA model, and achieve dominating performance on VQA-CP. However, since the complexity of design, current methods are unable to equip the ensemble-based models with two indispensable characteristics of an ideal VQA model: 1) visual-explainable: the model should rely on the right visual regions when making decisions. 2) question-sensitive: the model should be sensitive to the linguistic variations in question. To this end, we propose a model-agnostic Counterfactual Samples Synthesizing (CSS) training scheme. The CSS generates numerous counterfactual training samples by masking critical objects in images or words in questions, and assigning different ground-truth answers. After training with the complementary samples (ie, the original and generated samples), the VQA models are forced to focus on all critical objects and words, which significantly improves both visual-explainable and question-sensitive abilities. In return, the performance of these models is further boosted. Extensive ablations have shown the effectiveness of CSS. Particularly, by building on top of the model LMH, we achieve a record-breaking performance of 58.95% on VQA-CP v2, with 6.5% gains.

研究の動機と目的

現在のアンサンブルベースのVQAモデルが、視覚的説明可能性と質問感受性の両方を達成できない問題に対処すること。
学習データにおける表面的な言語的相関から生じる言語バイアスを低減すること。
VQA-CPのような分布シフトが生じたテストセットにおけるモデルの一般化性能を向上させることで、視覚的および言語的変化への感受性を高めること。
アーキテクチャの変更なしに、あらゆるVQAモデルに統合可能なプラグアンドプレイな訓練方式を開発すること。
VQAにおける視覚的注目度の正確さと言語的頑健性の両方を同時に向上させる統一的ソリューションを提供すること。

提案手法

CSSは2つのメカニズムを用いて反事実的サンプルを生成する：V-CSSは画像内の重要なオブジェクトをマスキングし、別の正解ラベルを割り当てる。
Q-CSSは質問内の重要な語を[MASK]トークンに置き換え、新たな画像-質問ペアに別の正解ラベルを割り当てる。
この手法はモデルに依存せず、アーキテクチャの変更なしに任意のVQAモデルに統合可能である。
訓練プロセスには、元のサンプルと合成された反事実的サンプルの両方が含まれ、モデルが関連する視覚的および言語的手がかりに注目するよう強制される。
マスキングの対象となる重要な視覚的オブジェクトおよび語を特定するために、注目度ベースのサリエンシー評価（s(a, v)およびs(a, w)）を用いる。
質問への感受性を定量的に評価するための新しい指標、信頼度改善（CI）を導入し、重要な語が除去された際の正解ラベルの信頼度低下を測定する。

実験結果

リサーチクエスチョン

RQ1反事実的サンプル生成は、VQAモデルの視覚的説明可能性を向上させることができるか？
RQ2提案手法は、質問内の言語的変化へのモデル感受性を高めることができるか？
RQ3CSS訓練方式は、アンサンブルアーキテクチャを含む多様なVQAモデルにおいて一貫して性能を向上させることができるか？
RQ4この手法は、VQA-CP-Rephrasingsにおける再表現された質問に対する頑健性にどのように影響を与えるか？
RQ5CSSは、学習データにおける誤った言語的相関への依存度をどの程度低減できるか？

主な発見

CSSは、VQA-CP v2で58.95%という新たなSOTA成績を達成し、前回SOTAモデルであるLMHと比較して6.5%の絶対的向上を示した。
視覚的説明可能性が顕著に向上しており、関連する視覚的オブジェクトへの注目度スコアが上昇し、関係のないオブジェクトへの影響が低減していることが示された。
質問感受性が向上し、VQA-CP-RephrasingsにおけるコンSENSUSスコア（CS(k)）が15.2%向上した。これは、質問の再表現に対するモデルの頑健性が向上していることを示している。
信頼度改善（CI）指標の結果、CSSを適用した場合、重要な語を除去することで正解ラベルの信頼度が著しく低下することが確認された。
アブレーションスタディの結果、V-CSSとQ-CSSの両方が性能向上に独立して寄与しており、特にQ-CSSが言語的頑健性向上に強い影響を与えていた。
定性的分析により、CSSで訓練されたモデルは、重要な視覚的オブジェクト（緑色のボックス）および言語的語（濃い緑色）により正確に注目しており、誤った手がかりへの依存度が低下していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。