[论文解读] UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
UniVL 提出一个统一的编码器-解码器框架,用于在视频-文本数据上进行预训练,包含五个目标,在微调后在多个人视频语言任务上显示出最先进的结果。
With the recent success of the pre-training technique for NLP and image-linguistic tasks, some video-linguistic pre-training works are gradually developed to improve video-text related downstream tasks. However, most of the existing multimodal models are pre-trained for understanding tasks, leading to a pretrain-finetune discrepancy for generation tasks. This paper proposes UniVL: a Unified Video and Language pre-training model for both multimodal understanding and generation. It comprises four components, including two single-modal encoders, a cross encoder, and a decoder with the Transformer backbone. Five objectives, including video-text joint, conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction, are designed to train each of the components. We further develop two pre-training strategies, stage by stage pre-training (StagedP) and enhanced video representation (EnhancedV), to make the training process of the UniVL more effective. The pre-train is carried out on a sizeable instructional video dataset HowTo100M. Experimental results demonstrate that the UniVL can learn strong video-text representation and achieves state-of-the-art results on five downstream tasks.
研究动机与目标
- 推动多模态视频-语言预训练,支持理解与生成任务。
- 从大规模教学性视频中学习联合的视频-文本表示。
- 提出一个灵活的架构,包含两个单模态编码器、一个跨模态编码器和一个解码器。
- 引入分阶段预训练和增强的视频表示策略以提升学习效果。
提出的方法
- 两流架构,具有独立的文本和视频编码器、用于交互的跨编码器,以及基于 Transformer 的解码器。
- 五个预训练目标:视频-文本联合(MIL-NCE)、条件化掩码语言模型(CMLM)、条件化掩码帧模型(CMFM)、视频-文本对齐,以及语言重构。
- 分阶段预训练(StagedP),先通过文本-视频联合学习暖身模型,然后再进行完整目标。
- 通过对文本输入进行掩码来增强视频表示(EnhancedV),以强制视频驱动的生成。
- 在五个下游任务上进行微调以展示其多样性:基于文本的检索、多模态字幕生成、动作分割、动作步骤定位以及多模态情感分析。
实验结果
研究问题
- RQ1一个统一的视频-语言预训练框架是否能够为多模态理解和生成任务学习到强表示?
- RQ2相比于以往的单流或仅理解模型,联合编码器-解码器的预训练目标是否能提升下游视频-语言任务的表现?
- RQ3分阶段预训练和增强视频表示策略是否会显著提升学习效率和下游结果?
主要发现
- 在基于文本的视频检索上取得强劲表现,UniVL (FT-Joint) 在 Youcook2 的 R@1 = 22.2,在 MSR-VTT 的 R@1 = 20.6。
- 通过跨编码器融合提升检索,UniVL (FT-Align) 达到 Youcook2 的 R@1 = 28.9,MSR-VTT 的 R@1 = 21.2。
- 在 Youcook2 上达到最先进的多模态视频字幕生成结果,相较于以往方法。
- 在动作分割(COIN)方面取得显著提升,UniVL 达到 70.02% 的帧准确率,在 CrossTask 的动作步骤定位达到 42.0 的平均召回率。
- 在 CMU-MOSI 上展示出强劲的多模态情感分析,例如 UniVL 达到的 BA 与相关系数高于基线。
- 对 HowTo100M(1.2M 条视频)进行预训练,使得视频-文本表示的学习在跨任务上具有效泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。