QUICK REVIEW

[论文解读] KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense Generation

Yiran Xing, Zai Shi|arXiv (Cornell University)|Jan 2, 2021

Multimodal Machine Learning Applications参考文献 29被引用 4

一句话总结

KM-BART 是一种知识增强的多模态 BART 模型，通过一种新颖的预训练任务——基于知识的常识生成（KCG），将外部常识知识整合到模型中，从而提升视觉常识生成性能。该模型在 VCG 基准测试中达到最先进水平，在人类评估中相比先前模型最高提升 22.6%，尤其在无事件描述的零样本设置下表现优异。

ABSTRACT

We present Knowledge Enhanced Multimodal BART (KM-BART), which is a Transformer-based sequence-to-sequence model capable of reasoning about commonsense knowledge from multimodal inputs of images and texts. We adapt the generative BART architecture to a multimodal model with visual and textual inputs. We further develop novel pretraining tasks to improve the model performance on the Visual Commonsense Generation (VCG) task. In particular, our pretraining task of Knowledge-based Commonsense Generation (KCG) boosts model performance on the VCG task by leveraging commonsense knowledge from a large language model pretrained on external commonsense knowledge graphs. To the best of our knowledge, we are the first to propose a dedicated task for improving model performance on the VCG task. Experimental results show that our model reaches state-of-the-art performance on the VCG task by applying these novel pretraining tasks.

研究动机与目标

在基本特征对齐之外，提升多模态常识推理在视觉文本生成中的表现。
解决视觉常识生成（VCG）缺乏专用预训练任务的问题。
将知识图谱中的外部常识知识整合到多模态序列到序列模型中。
通过在自动生成的常识推理上进行自训练，提升生成质量。

提出的方法

将 BART 架构扩展为支持视觉和文本输入的多模态编码器-解码器框架。
引入任务特定的标记，以指导在事件前/后/意图预测中的多模态推理。
提出基于知识的常识生成（KCG）作为新颖的预训练任务，用于从微调过的 ConceptNet 和 ATOMIC 上的大语言模型中注入知识。
使用大型语言模型进行自训练，以筛选并生成高质量的常识推理用于预训练。
将 KCG 与标准预训练任务（掩码语言建模（MLM）、掩码视觉区域建模（MRM）、属性预测（AP）和关系预测（RP））结合。
采用两阶段训练流程：首先在 KCG 和标准任务上进行预训练，然后在 VCG 数据集上进行微调。

实验结果

研究问题

RQ1通过整合外部知识，多模态序列到序列模型是否能实现更好的视觉常识生成？
RQ2与标准预训练相比，专注于常识推理的专用预训练任务是否能提升 VCG 上的性能？
RQ3使用大型语言模型进行自训练，以生成高质量的常识推理用于预训练，其有效性如何？
RQ4该模型是否能在无事件描述的零样本设置下实现泛化？
RQ5将 ConceptNet 和 ATOMIC 中的知识整合，如何提升对视觉输入的推理能力？

主要发现

KM-BART 在 VCG 基准测试中达到最先进性能，零样本设置（无事件描述）下总得分为 66.7%，相比 Park 等人（2020）提升 22.6%。
在人类评估中，当无事件描述时，KM-BART 在 61.3% 的‘前因’、68.7% 的‘后果’和 69.3% 的‘意图’预测中生成的推理比 Park 等人（2020）更合理。
即使在有事件描述的情况下，模型仍保持强劲表现，在整体人类评估中相比基线模型提升 55.1%。
KCG 预训练任务显著提升了性能，尤其在零样本场景下，证明其在增强常识推理方面的有效性。
将 KCG 与标准预训练任务（MLM、MRM、AP、RP）结合，可在所有评估指标上带来一致的性能提升。
模型表现出强鲁棒性与泛化能力，尤其在无事件描述时提升最大，表明其具备强大的知识整合与推理能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。