QUICK REVIEW

[论文解读] VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining

Jun Chen, Han Guo|arXiv (Cornell University)|Feb 20, 2021

Multimodal Machine Learning Applications参考文献 21被引用 11

一句话总结

VisualGPT 提出了一种数据高效的图像字幕生成模型，通过将视觉输入与大规模语言模型（LM）的预训练语言知识相结合，实现了性能平衡。通过引入自重生注意力机制和稀疏激活单元，该模型仅使用 0.1% 的训练数据，就在 MSCOCO 和 Conceptual Captions 数据集上达到了最先进性能，相比基线模型最高提升 10.8% 的 CIDEr 分数。

ABSTRACT

In this paper, we aim to improve the data efficiency of image captioning. We propose VisualGPT, a data-efficient image captioning model that leverages the linguistic knowledge from a large pretrained language model (LM). A crucial challenge is to balance between the use of visual information in the image and prior linguistic knowledge acquired from pretraining.We designed a novel self-resurrecting encoder-decoder attention mechanism to quickly adapt the pretrained LM as the language decoder on a small amount of in-domain training data. The pro-posed self-resurrecting activation unit produces sparse activations but is not susceptible to zero gradients. When trained on 0.1%, 0.5% and 1% of MSCOCO and Conceptual Captions, the proposed model, VisualGPT, surpasses strong image captioning baselines. VisualGPT outperforms the best baseline model by up to 10.8% CIDEr on MS COCO and up to 5.4% CIDEr on Conceptual Captions.We also perform a series of ablation studies to quantify the utility of each system component. To the best of our knowledge, this is the first work that improves data efficiency of image captioning by utilizing LM pretrained on unimodal data. Our code is available at: this https URL.

研究动机与目标

提升图像字幕生成任务中的数据效率，尤其是在仅能获得少量领域内训练数据的情况下。
解决如何在图像字幕生成过程中平衡图像中的视觉信息与预训练语言模型的先验语言知识的挑战。
实现在极小领域内数据条件下，对大型语言模型作为解码器的有效微调。
设计一种机制，使模型在激活稀疏且存在梯度问题的训练过程中仍能保持高性能。

提出的方法

引入一种自重生的编码器-解码器注意力机制，使预训练语言模型能在极小领域内数据下作为解码器有效适应。
实现一种自重生激活单元，可在产生稀疏激活的同时避免反向传播过程中的零梯度问题。
利用在单模态文本数据上预训练的语言模型，向字幕生成系统注入强语言先验知识。
在解码过程中，平衡视觉编码器提取的视觉特征与语言模型内部知识，以提升泛化能力。
在小规模图像-字幕数据集（如 MSCOCO 和 Conceptual Captions）上端到端微调整个模型。
采用一种新型注意力机制，动态调整注意力权重，以优先关注相关视觉和语言信号。

实验结果

研究问题

RQ1在仅使用极少量领域内微调数据的情况下，预训练语言模型能否被有效适配为图像字幕生成的解码器？
RQ2在图像字幕生成过程中，如何最优地平衡视觉与语言知识，以提升数据效率？
RQ3自重生激活单元是否能提升低数据场景下的训练稳定性和性能？
RQ4在小数据集上，利用单模态预训练语言模型在多大程度上能提升字幕生成性能？

主要发现

当仅使用 0.1% 的训练数据进行训练时，VisualGPT 在 MS COCO 数据集上的 CIDEr 分数相比强基线模型最高提升 10.8%。
在 Conceptual Captions 数据集上，VisualGPT 仅使用 0.1% 的训练数据，CIDEr 分数相比最佳基线模型提升 5.4%。
即使在 0.5% 和 1% 的数据规模下，模型仍保持高性能，展现出一致的数据效率优势。
消融实验表明，自重生注意力机制和语言知识注入对性能提升均有显著贡献。
自重生激活单元有效防止梯度消失，实现了稀疏激活下的稳定训练。
VisualGPT 是首个通过利用在单模态文本上预训练的语言模型，实现在数据高效图像字幕生成任务中达到最先进性能的方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。