QUICK REVIEW

[論文レビュー] Counterfactual VQA: A Cause-Effect Look at Language Bias

Yulei Niu, Kaihua Tang|arXiv (Cornell University)|Jun 8, 2020

Multimodal Machine Learning Applications参考文献 68被引用数 23

ひとこと要約

本稿では、質問が答えに及ぼす直接的因果的効果をモデル化し、それを全体効果から差し引くことで、視覚質問応答（VQA）における言語バイアスを軽減する反事後推論フレームワークCF-VQAを提案する。この手法は、データ拡張を伴わずにVQA-CPで最先端の性能を達成し、複数のバックボーンとファージョン戦略にわたって一般化可能であり、バランスの取れたベンチマークでも頑健性を維持する。

ABSTRACT

VQA models may tend to rely on language bias as a shortcut and thus fail to sufficiently learn the multi-modal knowledge from both vision and language. Recent debiasing methods proposed to exclude the language prior during inference. However, they fail to disentangle the "good" language context and "bad" language bias from the whole. In this paper, we investigate how to mitigate language bias in VQA. Motivated by causal effects, we proposed a novel counterfactual inference framework, which enables us to capture the language bias as the direct causal effect of questions on answers and reduce the language bias by subtracting the direct language effect from the total causal effect. Experiments demonstrate that our proposed counterfactual inference framework 1) is general to various VQA backbones and fusion strategies, 2) achieves competitive performance on the language-bias sensitive VQA-CP dataset while performs robustly on the balanced VQA v2 dataset without any augmented data. The code is available at https://github.com/yuleiniu/cfvqa.

研究の動機と目的

質問応答モデルが多モodal推論ではなく、誤った言語的相関に依存する言語バイアスの課題に対処すること。
既存のバイアス除去手法が分離に失敗する「良い」言語的文脈と「悪い」言語バイアスを分離すること。
データ拡張やアーキテクチャの変更を必要とせず、言語バイアスを低減する汎用的な推論フレームワークを開発すること。
既存の言語プライアに基づく手法を因果推論フレームワークの下で統一し、最小限の変更で性能を向上させること。

提案手法

反事後推論を用いて、質問が答えに及ぼす直接的因果的効果として言語バイアスを定式化する。
従来のVQA（視覚と言語の入力を両方使用）を用いて全体的因果効果を推定する。
視覚入力をブロックすることで、質問のみの影響を分離し、反事後VQAを用いて純粋な言語効果を推定する。
全体効果から直接的言語効果を差し引くことで、バイアス除去推論を計算する。
訓練時に視覚言語、言語のみ、視覚のみのブランチを備えたアンサンブルモデルを学習する。
推論時に、バイアス補正として推定された直接効果を差し引くことにより、テスト時に視覚言語ブランチのみを用いる因果推論フレームワークを適用する。

実験結果

リサーチクエスチョン

RQ1VQAにおける言語バイアスを、有用な言語的文脈から効果的に分離することは可能か？
RQ2反事後推論フレームワークは、データ拡張を伴わず言語バイアスを低減できるか？
RQ3提案手法は、さまざまなVQAアーキテクチャやファージョン戦略にわたって一般化可能か？
RQ4既存の言語プライアに基づく手法は、因果推論フレームワークの下で統一され、改善可能か？

主な発見

CF-VQAは、SUM戦略を用いてVQA-CP v1テストセットで52.87%の精度を達成し、ベースラインのRUBiを7.5%上回った。
VQA-CP v2では、CF-VQA（SUM）が52.73%の精度を達成し、ドメイン内設定でRandImgを3%以上上回った。
複数のバックボーン（SAN, UpDn, S-MRL）とファージョン戦略（HM, SUM）にわたって一般化され、一貫した改善が見られた。
CF-VQAは、RUBiを7.5%向上させ、追加の可学習パラメータがたった1つであるにもかかわらず、強力な互換性と向上可能性を示した。
アブレーションスタディの結果、CF-VQAは言語バイアスを顕著に低減するとともに、視覚的理解を保持しており、すべてのモデルバリアントで一貫した向上が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。