Skip to main content
QUICK REVIEW

[论文解读] UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

Wei Li, Can Gao|arXiv (Cornell University)|Dec 31, 2020
Multimodal Machine Learning Applications参考文献 40被引用 32
一句话总结

UNIMO 引入一个统一模态的预训练范式,通过文本、图像以及图像-文本对进行学习,通过跨模态对比学习和多层次文本改写,在单模态和多模态任务上都能实现出色的性能。

ABSTRACT

Existed pre-training methods either focus on single-modal tasks or multi-modal tasks, and cannot effectively adapt to each other. They can only utilize single-modal data (i.e. text or image) or limited multi-modal data (i.e. image-text pairs). In this work, we propose a unified-modal pre-training architecture, namely UNIMO, which can effectively adapt to both single-modal and multi-modal understanding and generation tasks. Large scale of free text corpus and image collections can be utilized to improve the capability of visual and textual understanding, and cross-modal contrastive learning (CMCL) is leveraged to align the textual and visual information into a unified semantic space over a corpus of image-text pairs. As the non-paired single-modal data is very rich, our model can utilize much larger scale of data to learn more generalizable representations. Moreover, the textual knowledge and visual knowledge can enhance each other in the unified semantic space. The experimental results show that UNIMO significantly improves the performance of several single-modal and multi-modal downstream tasks. Our code and pre-trained models are public at the UNIMO project page https://unimo-ptm.github.io/

研究动机与目标

  • 推动一种能够利用大规模未成对文本和图像数据的统一模态预训练方法。
  • 学习将视觉模态与文本模态对齐于一个共同的语义空间的表示。
  • 在单模态语言任务和多模态视觉-语言任务上都实现强劲性能。
  • 证明文本和视觉知识在跨模态学习中能相互增强。

提出的方法

  • 使用统一模态 Transformer 来处理文本、图像区域以及图像-文本对。
  • 应用带有文本改写的跨模态对比学习(CMCL),为图像-文本对创建多样化的正样本和困难负样本。
  • 用来自单模态数据的相关文本和图像检索结果来增强每个图像-文本对。
  • 以掩蔽视觉特征重建以及特征回归和区域分类目标的结合进行预训练。
  • 训练一个统一的编码器-解码器用于语言建模,具备双向预测和 Seq2Seq 生成,在跨模态之间共享上下文。

实验结果

研究问题

  • RQ1单一模型是否能够有效地从文本、图像和图像-文本对中学习,以同时支持单模态和多模态任务?
  • RQ2通过多粒度文本改写的跨模态对比学习是否能在统一的语义空间中改善对齐?
  • RQ3在联合学习时,文本和视觉知识在多大程度上可以相互促进?
  • RQ4在下游任务上,UNIMO 与先前的单模态预训练语言模型和多模态预训练方法相比的表现如何?

主要发现

  • UNIMO-base 与 UNIMO-large 在多模态任务上达到最新的最优结果,如图像-文本检索、视觉蕴含、VQA 和图像标题生成,其中 UNIMO-large 在图像和文本检索方面超越此前最佳 ERNIE-ViL-large,约达到 1.3–1.34 的 R@1。
  • UNIMO 在单模态语言任务上也呈现出强劲的性能,超越若干预训练语言模型并在许多基准测试中击败 UniLM。
  • 消融研究表明,去除文本数据(w/o texts)会降低多模态任务的性能,去除视觉数据(w/o pairs&images)则会降低单模态任务的性能,说明模态之间存在相互提升。
  • 将非成对的文本和图像数据与图像-文本对一起使用,产生更丰富的表示和更好的跨模态对齐,优于仅以图像-文本对训练的模型。
  • 带文本改写(句子、短语、单词层面的改写)和检索增强的 CMCL 在跨模态语义对齐方面显著优于简单的图像-文本匹配方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。