QUICK REVIEW

[论文解读] UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation.

Huaishao Luo, Lei Ji|arXiv (Cornell University)|Feb 15, 2020

Multimodal Machine Learning Applications参考文献 62被引用 93

一句话总结

UniVL 提出了一种统一的视频与语言预训练模型，通过双编码器、交叉编码器和解码器架构，联合优化多模态理解与生成任务，包含五个预训练目标。在 HowTo100M 数据集上进行预训练后，该模型在五个下游视频-文本任务中均达到最先进性能，展示了在生成任务中显著降低的预训练-微调差异。

ABSTRACT

With the recent success of the pre-training technique for NLP and image-linguistic tasks, some video-linguistic pre-training works are gradually developed to improve video-text related downstream tasks. However, most of the existing multimodal models are pre-trained for understanding tasks, leading to a pretrain-finetune discrepancy for generation tasks. This paper proposes UniVL: a Unified Video and Language pre-training model for both multimodal understanding and generation. It comprises four components, including two single-modal encoders, a cross encoder, and a decoder with the Transformer backbone. Five objectives, including video-text joint, conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction, are designed to train each of the components. We further develop two pre-training strategies, stage by stage pre-training (StagedP) and enhanced video representation (EnhancedV), to make the training process of the UniVL more effective. The pre-train is carried out on a sizeable instructional video dataset HowTo100M. Experimental results demonstrate that the UniVL can learn strong video-text representation and achieves state-of-the-art results on five downstream tasks.

研究动机与目标

为解决主要针对理解任务进行优化但生成任务表现欠佳的多模态模型中存在的预训练-微调差异问题。
开发一种统一架构，能够联合学习视频与语言表征，以支持理解与生成任务。
设计一组预训练目标，有效对齐视频与文本模态，同时支持条件生成。
通过分阶段预训练与增强的视频表征策略，提升训练效率与表征质量。
在多样化的下游任务上评估模型，以验证其在理解与生成场景下的有效性。

提出的方法

UniVL 采用基于 Transformer 的架构，包含两个单模态编码器（分别用于视频与文本）、一个交叉编码器用于模态间交互，以及一个解码器用于自回归生成。
使用五种预训练目标：视频-文本联合预训练、条件掩码语言模型（CMLM）、条件掩码帧模型（CMFM）、视频-文本对齐，以及语言重建。
采用两种训练策略：分阶段预训练（StagedP）以逐步优化表征，以及增强视频表征（EnhancedV）以提升视频编码质量。
预训练在 HowTo100M 数据集上进行，该数据集是一个大规模的指令类视频集合，包含配对的视频与文本描述。
交叉编码器与解码器组件联合优化，以实现生成任务中多模态依赖关系的端到端学习。
该架构支持编码器-解码器与仅编码器的推理模式，从而在理解与生成任务中实现灵活性。

实验结果

研究问题

RQ1统一的预训练框架能否有效支持多模态理解与生成任务？
RQ2条件掩码建模目标（CMLM 与 CMFM）在多模态表征学习中起到何种作用？
RQ3分阶段预训练与增强视频表征在多大程度上提升了模型性能？
RQ4该统一架构是否减少了现有模型中观察到的预训练-微调差异？
RQ5UniVL 在多样化的视频-文本下游任务中与现有最先进模型相比表现如何？

主要发现

UniVL 在五个下游视频-文本任务中均达到最先进性能，展现出在理解与生成基准任务中的强大泛化能力。
使用条件掩码语言与帧建模目标显著提升了多模态对齐与生成质量。
与端到端训练相比，分阶段预训练策略（StagedP）提升了模型收敛性与最终性能。
增强视频表征策略（EnhancedV）带来了更鲁棒的视频特征学习，从而提升了下游任务表现。
该模型显著降低了预训练-微调差异，在生成任务上的迁移能力优于以往的多模态模型。
在 HowTo100M 上的实证结果表明，UniVL 学习到了丰富且可迁移的视频-文本表征，可在多样化任务中实现良好泛化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。