Skip to main content
QUICK REVIEW

[論文レビュー] RUBi: Reducing Unimodal Biases in Visual Question Answering

Rémi Cadène, Corentin Dancette|arXiv (Cornell University)|Jun 24, 2019
Multimodal Machine Learning Applications参考文献 48被引用数 205
ひとこと要約

RUBiは VQA のトレーニング時に質問だけの分岐を導入して単一モダリティのバイアスを低重み付けし、VQA-CP v2 のような biased データセットでの頑健性を向上させる。

ABSTRACT

Visual Question Answering (VQA) is the task of answering questions about an image. Some VQA models often exploit unimodal biases to provide the correct answer without using the image information. As a result, they suffer from a huge drop in performance when evaluated on data outside their training set distribution. This critical issue makes them unsuitable for real-world settings. We propose RUBi, a new learning strategy to reduce biases in any VQA model. It reduces the importance of the most biased examples, i.e. examples that can be correctly classified without looking at the image. It implicitly forces the VQA model to use the two input modalities instead of relying on statistical regularities between the question and the answer. We leverage a question-only model that captures the language biases by identifying when these unwanted regularities are used. It prevents the base VQA model from learning them by influencing its predictions. This leads to dynamically adjusting the loss in order to compensate for biases. We validate our contributions by surpassing the current state-of-the-art results on VQA-CP v2. This dataset is specifically designed to assess the robustness of VQA models when exposed to different question biases at test time than what was seen during training. Our code is available: github.com/cdancette/rubi.bootstrap.pytorch

研究の動機と目的

  • 画像を無視させることを許す質問モダリティのバイアスを減らす必要性を動機づける。
  • トレーニング時に biased な例を低重み付けする学習戦略(RUBi)を提案する。
  • RUBiはモデルに依存しないことを示し、アーキテクチャ間で性能を改善できることを示す。
  • biased ベンチマークで頑健性の向上を示しつつ、VQA-v2 の結果を競争力のある水準に保つ。

提案手法

  • トレーニング中にベースの VQA モデルへ質問のみの分岐を追加して言語的バias を捉える。
  • 質問のみ分岐からマスクを計算し、損失計算前にVQA出力へ乗法的に適用する。
  • L_QM(メイン)とL_QO(質問のみ)という2つの損失で、ベースVQAモデルパラメータと質問のみ分岐を結合して最適化する。
  • 訓練後に質問のみ分岐を除去し、推論にはベースのVQAモデルを使用する。
  • SANやUpDnなどのアーキテクチャとの互換性を示し、VQA-CP v2 での改善を報告する。

実験結果

リサーチクエスチョン

  • RQ1トレーニング中に質問のみのバイアスをどれだけ捉え、軽減することでVQAの頑健性を向上させられるか。
  • RQ2RUBiは偏りデータと標準データの両方で、異なるVQAアーキテクチャに対して性能を改善するか。
  • RQ3提案されたマスキング戦略が学習ダイナミクスとバイアス低減に与える影響は何か。
  • RQ4単一モダリティのバイアスを削減することが、標準のVQA-v2の性能にどの程度影響するか。

主な発見

  • RUBiはVQA-CP v2で平均総合精度47.11%を達成し、前の最先端より+5.94ポイント改善。
  • RUBiはアーキテクチャを超えて利得をもたらす:SAN (+11.73) および UpDn (+4.5) がベースラインのバイアス低減手法より改善。
  • VQA-CP v2では、RUBiはベースラインを +8.65 点上回り、GVQA のような従来のバイアス重視手法を大きく上回る。
  • RUBiはVQA-v2で競争力のある性能を維持しつつ、VQA-CP v2で大きな改善を達成しており、標準的な精度を大きく損なうことなく質問バイアスに頑健であることを示す。
  • アブレーションにより、L_QOとマスキング手法がバイアス低減に必要であることを確認。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。