[论文解读] Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies
本文提出基于功能熵的正则化项,并通过对数-索贝列夫不等式进行界定,用以平衡多模态之间的贡献并降低多模态分类器的偏差,在 VQA-CPv2 和 SocialIQ 上达到最先进的结果,同时在 Colored MNIST 上也表现良好。
Many recent datasets contain a variety of different data modalities, for instance, image, question, and answer data in visual question answering (VQA). When training deep net classifiers on those multi-modal datasets, the modalities get exploited at different scales, i.e., some modalities can more easily contribute to the classification results than others. This is suboptimal because the classifier is inherently biased towards a subset of the modalities. To alleviate this shortcoming, we propose a novel regularization term based on the functional entropy. Intuitively, this term encourages to balance the contribution of each modality to the classification result. However, regularization with the functional entropy is challenging. To address this, we develop a method based on the log-Sobolev inequality, which bounds the functional entropy with the functional-Fisher-information. Intuitively, this maximizes the amount of information that the modalities contribute. On the two challenging multi-modal datasets VQA-CPv2 and SocialIQ, we obtain state-of-the-art results while more uniformly exploiting the modalities. In addition, we demonstrate the efficacy of our method on Colored MNIST.
研究动机与目标
- 动机并形式化地描述在多模态分类器中某一模态主导决策时的偏差问题。
- 提出基于功能熵的正则化项,以平衡模态贡献。
- 推导一个可实际计算的界限,使用与功能费舍信息相关的对数-索贝列夫不等式。
- 在包括 VQA-CPv2、SocialIQ 和 Colored MNIST 在内的多模态数据集上证明其有效性。
提出的方法
- 为多模态输入定义功能熵,并将其与每个训练样本的高斯扰动模型相关联。
- 使用对数-索贝列夫不等式用功能费舍信息对功能熵进行界限。
- 提出一个正则化目标,将交叉熵损失与基于费舍信息的反项相结合,由 lambda 控制。
- 通过张量化将该方法扩展以处理多模态并提供可行的逐模态近似。
- 可选地将基于熵的正则化与通过庞加莱不等式的方差正则化相关联。
实验结果
研究问题
- RQ1基于功能熵的正则化是否可以鼓励多模态分类器对所有模态的均衡利用?
- RQ2通过界限最大化(对功能熵的界限)是否能提升在有偏的多模态数据集上的泛化能力?
- RQ3张量化(逐模态)正则化对模型在 VQA-CPv2、SocialIQ 和 Colored MNIST 等任务上的鲁棒性有何影响?
主要发现
- 基于熵的正则化相比于现有方法,在 SocialIQ 和 VQA-CPv2 上取得了最先进的性能。
- 正则化提升了模态信息的平衡,减少对单一模态的依赖(例如 Colored MNIST 的颜色、VQA 任务中的语言先验)。
- 在 Colored MNIST 上,结合功能费舍信息正则化帮助模型同时利用形状和颜色信息,而不仅仅是颜色信息。
- 在 VQA-CPv2 上,该方法达到 54.55% 的准确率(高于先前的最先进 52.05%),在 SocialIQ 上达到 68.53%(相较基线 64.82%)。
- 基于 TFI 的正则化缩小了最大可达到准确率与收敛准确率之间的差距,表明更好的泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。