Skip to main content
QUICK REVIEW

[論文レビュー] Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies

Itai Gat, Idan Schwartz|arXiv (Cornell University)|Oct 21, 2020
Multimodal Machine Learning Applications被引用数 49
ひとこと要約

この論文は、複数モダリティからの寄与をバランスさせ、多モーダル分類器のバイアスを軽減するため、functional entropy に基づく正則化項を log-Sobolev 不等式で境界化し、VQA-CPv2 と SocialIQ で最先端の結果を達成し、Colored MNIST でも良好な性能を示す。

ABSTRACT

Many recent datasets contain a variety of different data modalities, for instance, image, question, and answer data in visual question answering (VQA). When training deep net classifiers on those multi-modal datasets, the modalities get exploited at different scales, i.e., some modalities can more easily contribute to the classification results than others. This is suboptimal because the classifier is inherently biased towards a subset of the modalities. To alleviate this shortcoming, we propose a novel regularization term based on the functional entropy. Intuitively, this term encourages to balance the contribution of each modality to the classification result. However, regularization with the functional entropy is challenging. To address this, we develop a method based on the log-Sobolev inequality, which bounds the functional entropy with the functional-Fisher-information. Intuitively, this maximizes the amount of information that the modalities contribute. On the two challenging multi-modal datasets VQA-CPv2 and SocialIQ, we obtain state-of-the-art results while more uniformly exploiting the modalities. In addition, we demonstrate the efficacy of our method on Colored MNIST.

研究の動機と目的

  • 意思決定を支配する単一のモダリティがある場合の、マルチモーダル分類器におけるバイアス問題を動機づけ、形式化する。
  • モダリティの寄与を balanced にするため、functional entropy に基づく正則化項を提案する。
  • functional Fisher information に結びつく log-Sobolev 不等式を用いて、実用的に計算可能な境界を導出する。
  • VQA-CPv2、SocialIQ、Colored MNIST を含む多様なマルチモーダルデータセットで有効性を示す。

提案手法

  • マルチモーダル入力の functional entropy を定義し、訓練例ごとのガウス摂動モデルと関連付ける。
  • log-Sobolev 不等式を用いて functional entropy を functional Fisher information で境界化する。
  • クロスエントロピー損失と逆 Fisher-information ベースの項を組み合わせた正則化目的関数を、lambda によって制御する。
  • テンソル化を介してアプローチを拡張し、複数モダリティを扱い、各モダリティの近似を扱いやすくする。
  • エントロピーに基づく正則化を、Poincaré 不等式を介して分散ベースの正則化と関連づけることも可能。

実験結果

リサーチクエスチョン

  • RQ1functional-entropy ベースの正則化は、マルチモーダル分類器で全モダリティのバランスのとれた利用を促すか。
  • RQ2functional entropy を最大化(境界を介して)することは、偏りのあるマルチモーダルデータセットでの汎化性能を向上させるか。
  • RQ3tensorized(モダリティごと)の正則化が、VQA-CPv2、SocialIQ、Colored MNIST などのタスクにおけるモデルの頑健性に与える影響は何か。

主な発見

  • エントロピーベースの正則化は、従来法と比較して SocialIQ および VQA-CPv2 で最先端の性能を達成した。
  • 正則化はモダリティ情報のバランスを改善し、単一モダリティへの依存を減少させる(Colored MNIST の色、VQA タスクの言語先行情報など)。
  • Colored MNIST では、functional Fisher information 正則化を組み込むと、色だけでなく形状情報と色情報の両方を利用するようモデルを促す。
  • VQA-CPv2 では 54.55% の精度を達成(前State-of-the-art 52.05% を上回る)、SocialIQ では 68.53% を達成(基準は 64.82%)。
  • TFI ベースの正則化は、最大達成可能精度と収束精度のギャップを縮小し、より良い汎化を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。