[论文解读] e-SNLI-VE: Corrected Visual-Textual Entailment with Natural Language Explanations
本文提出了 SNLI-VE-2.0,即 SNLI-VE 数据集的修正版本,对中性类别标签进行了修订;并提出了 e-SNLI-VE,一个扩展数据集,包含人工编写的自然语言解释。该研究提出模型在训练过程中学习解释,并在推理时生成解释,实现了 90.55% 的平衡准确率和更高的解释相关性,展示了解释质量与分类准确率之间的权衡。
The recently proposed SNLI-VE corpus for recognising visual-textual entailment is a large, real-world dataset for fine-grained multimodal reasoning. However, the automatic way in which SNLI-VE has been assembled (via combining parts of two related datasets) gives rise to a large number of errors in the labels of this corpus. In this paper, we first present a data collection effort to correct the class with the highest error rate in SNLI-VE. Secondly, we re-evaluate an existing model on the corrected corpus, which we call SNLI-VE-2.0, and provide a quantitative comparison with its performance on the non-corrected corpus. Thirdly, we introduce e-SNLI-VE, which appends human-written natural language explanations to SNLI-VE-2.0. Finally, we train models that learn from these explanations at training time, and output such explanations at testing time.
研究动机与目标
- 修正 SNLI-VE 数据集中中性类别中的标注错误,特别是 Vu 等人估计的约 31% 的错误率。
- 在修正后的 SNLI-VE-2.0 数据集上重新评估现有 VTE 模型,以提供更新的性能基准。
- 将 SNLI-VE-2.0 扩展为包含人工编写的自然语言解释,构建 e-SNLI-VE,以支持可解释的多模态推理。
- 训练能够从解释中学习并在推理时生成解释的模型,推动视觉-文本蕴涵任务中的可解释人工智能发展。
提出的方法
- 通过 Amazon Mechanical Turk 收集 SNLI-VE 验证集和测试集中中性对的新标签,采用质量控制措施,包括每条样本三重标注和可信示例。
- 在 SNLI-VE-2.0 上重新评估 BUTD 模型,以建立更新的性能指标,显示在修正数据上的可靠性提升。
- 通过将 e-SNLI 的解释附加到 SNLI-VE-2.0 上构建 e-SNLI-VE,仅对中性对重新标注解释以保持一致性。
- 设计两种模型架构:ExplToLabel-VE,从解释中预测标签;EtP-BUTD-VE,先生成解释再预测标签。
- 使用分类任务的交叉熵损失和解释生成的语言建模损失进行端到端训练,通过验证集困惑度选择最佳模型。
- 通过人工评估评估模型性能,使用平衡准确率和解释相关性,观察到标签准确率与解释质量之间存在权衡。
实验结果
研究问题
- RQ1SNLI-VE 中性类别中的错误率有多高,是否可通过人工标注修正来降低?
- RQ2修正中性类别对现有 VTE 模型性能有何影响?
- RQ3自然语言解释能否提升视觉-文本蕴涵模型的可解释性?
- RQ4在训练模型生成解释时,标签预测准确率与解释质量之间是否存在权衡?
- RQ5先生成解释再预测的模型架构与仅用解释进行分类的架构相比表现如何?
主要发现
- 修正后的 SNLI-VE-2.0 数据集将中性类别错误率从约 31% 显著降低,验证了人工重新标注的必要性。
- 在 SNLI-VE-2.0 上的重新评估显示,BUTD 模型在修正后的测试集上达到了 72.52% 的平衡准确率,表明其可靠性得到提升。
- 在 e-SNLI-VE 上训练的 ExplToLabel-VE 模型在测试集上实现了 90.55% 的平衡准确率,展示了在标签预测上的强大性能。
- 当以困惑度为优化目标时,EtP-BUTD-VE 模型在人工评估中实现了 35% 的解释相关性,表明尽管标签准确率下降了 3%,但解释质量有所提升。
- 观察到权衡现象:优先考虑解释质量(通过困惑度选择模型)的模型表现出更高的解释相关性,但标签准确率略有下降(69.40% vs. 72.52%)。
- 定性分析显示,模型常生成主题相关但语义无关的解释,常见错误包括重复短语如 'are in a car' 或 'Just because... doesn't mean...'。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。