QUICK REVIEW

[论文解读] HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

Linjie Li, Yen-Chun Chen|arXiv (Cornell University)|May 1, 2020

Multimodal Machine Learning Applications参考文献 76被引用 51

一句话总结

HERO 引入一个分层的视频+语言预训练模型，具备用于局部融合的跨模态 Transformer 和用于全局上下文的时序 Transformer，并新增预训练任务（VSM 和 FOM）以学习时序对齐；在多种视频+语言任务上达到最新的最先进性能，并引入新的基准 How2R 和 How2QA。

ABSTRACT

We present HERO, a novel framework for large-scale video+language omni-representation learning. HERO encodes multimodal inputs in a hierarchical structure, where local context of a video frame is captured by a Cross-modal Transformer via multimodal fusion, and global video context is captured by a Temporal Transformer. In addition to standard Masked Language Modeling (MLM) and Masked Frame Modeling (MFM) objectives, we design two new pre-training tasks: (i) Video-Subtitle Matching (VSM), where the model predicts both global and local temporal alignment; and (ii) Frame Order Modeling (FOM), where the model predicts the right order of shuffled video frames. HERO is jointly trained on HowTo100M and large-scale TV datasets to gain deep understanding of complex social dynamics with multi-character interactions. Comprehensive experiments demonstrate that HERO achieves new state of the art on multiple benchmarks over Text-based Video/Video-moment Retrieval, Video Question Answering (QA), Video-and-language Inference and Video Captioning tasks across different domains. We also introduce two new challenging benchmarks How2QA and How2R for Video QA and Retrieval, collected from diverse video content over multimodalities.

研究动机与目标

开发一个可扩展的多模态预训练框架，捕捉细粒度的帧文本对齐和全局视频上下文。
利用分层编码器将字幕与局部帧上下文融合，并提取全局时序表示。
设计能够强制实现视频与语言在局部和全局时序对齐的预训练任务。
通过电视节目和 HowTo100M 来多样化预训练数据，以学习复杂的社交动态和叙事。
引入用于视频问答与检索的新基准，以在多样化内容中评估多模态理解。

提出的方法

提出一个分层模型，采用跨模态 Transformer 进行字幕句子及其相关视频帧的局部融合。
使用时序 Transformer 从跨模态输出中计算序列化、全局视频上下文。
引入四个预训练任务：掩码语言建模（MLM）、掩码帧建模（MFM，含两种变体（MFFR 和 MNCE））、视频-字幕匹配（VSM）和帧顺序建模（FOM）。
在 MLM 中，利用周围文本和对齐的视觉帧来预测被遮蔽的标记；在 MFM 中，使用基于对比的目标重建或区分被遮蔽的视频特征；在 VSM 中，学习局部和全局字幕-视频对齐；在 FOM 中，在打乱子集帧后预测原始帧的顺序。
在 TV 和 HowTo100M 数据集上进行预训练，并在多个下游任务中进行消融研究并与最先进模型进行比较。

实验结果

研究问题

RQ1分层视频+语言编码器能否比扁平结构更好地利用字幕与视频帧之间的时序对齐？
RQ2新的预训练任务（VSM 和 FOM）是否提升下游任务（如视频问答和检索）的时序推理与对齐？
RQ3在多样化数据集（电视节目和教学视频）上进行训练如何影响在不同视频+语言基准上的表现？
RQ4与基线相比，所提出的预训练配置（MLM + MNCE + FOM + VSM）对下游任务的影响有多大？
RQ5所提出的基准 How2R 和 How2QA 是否能有效评估视频内容中的丰富多模态理解？

主要发现

HERO 在多项下游任务上取得新的最先进结果，包括基于文本的视频检索、视频问答和视频-语言推理。
最佳预训练配置 MLM + MNCE + FOM + VSM 在 TVR、TVQA、How2R、How2QA 上均取得强劲性能。
具有显式局部（跨模态）和全局（时序）融合的分层编码器，优于扁平的 BERT 风格基线。
VSM 通过学习字幕-视频的局部与全局对齐来提升视频片段检索，特别有利于检索任务。
FOM 有助于问答任务中的时序推理，并且在使用 MNCE 时，MFFR 提供的额外收益有限。
HERO 在多通道（视频+字幕）和单通道（仅视频）设置下泛化良好，超越了针对任务的 SOTA 模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。