QUICK REVIEW

[论文解读] Video Understanding as Machine Translation

Bruno Korbar, Fabio Petroni|arXiv (Cornell University)|Jun 12, 2020

Multimodal Machine Learning Applications参考文献 59被引用 26

一句话总结

该论文提出了一种统一的视频理解框架，将视频-文本对齐问题建模为机器翻译任务，通过生成式建模范式避免了负样本采样，从而消除了对负样本的需求。该方法在HowTo100M、TVQA和YouCook2等大规模数据集上的多个下游任务（包括视频分类、问题回答、图像字幕生成和基于文本的检索）中均取得了最先进性能。

ABSTRACT

With the advent of large-scale multimodal video datasets, especially sequences with audio or transcribed speech, there has been a growing interest in self-supervised learning of video representations. Most prior work formulates the objective as a contrastive metric learning problem between the modalities. To enable effective learning, however, these strategies require a careful selection of positive and negative samples often combined with hand-designed curriculum policies. In this work we remove the need for negative sampling by taking a generative modeling approach that poses the objective as a translation problem between modalities. Such a formulation allows us to tackle a wide variety of downstream video understanding tasks by means of a single unified framework, without the need for large batches of negative samples common in contrastive metric learning. We experiment with the large-scale HowTo100M dataset for training, and report performance gains over the state-of-the-art on several downstream tasks including video classification (EPIC-Kitchens), question answering (TVQA), captioning (TVC, YouCook2, and MSR-VTT), and text-based clip retrieval (YouCook2 and MSR-VTT).

研究动机与目标

为解决对比度量学习在视频表征学习中的局限性，后者严重依赖人工设计的负样本采样和课程学习策略。
通过将视频理解重新表述为模态间的生成式翻译问题，消除对大规模负样本批次的需求。
开发一种统一的框架，能够在无需针对特定任务进行微调或架构修改的情况下处理多样化的下游视频理解任务。
通过利用视频与文本的序列到序列建模进行自监督学习，提升视频理解基准测试的性能。
通过可扩展的端到端方法，实现从包含音频或转录语音的大规模多模态视频数据集中有效学习。

提出的方法

该方法将视频-文本对齐视为序列到序列的翻译问题，使用基于Transformer的生成式模型对从视觉特征到文本描述的映射进行建模。
采用因果自回归解码器，基于编码后的视频特征生成文本标记，实现无需对比目标的端到端训练。
该模型在大规模视频数据集（如HowTo100M）上进行预训练，使用掩码语言建模和下一项标记预测目标，对转录语音或字幕进行学习。
在推理阶段，通过提示同一生成头，实现对下游任务（如分类、字幕生成和检索）的零样本或微调适应。
通过仅使用正样本对（视频及其对应文本），避免了对比学习，降低了训练复杂度，并消除了对负样本采样的需求。
该框架通过单一统一架构支持多种任务，仅在推理阶段应用特定任务的提示工程或微调。

实验结果

研究问题

RQ1视频表征学习能否被有效建模为模态间的生成式翻译任务，从而避免负样本采样？
RQ2与对比学习方法相比，统一的生成式框架在多样化视频理解任务中的性能表现如何？
RQ3单一预训练模型在视频分类、字幕生成和基于文本的检索等下游任务中，其零样本或少样本泛化能力达到何种程度？
RQ4在大规模视频数据集上，由于省去负样本采样，是否能提升训练的稳定性与可扩展性？
RQ5所提出方法是否能在包括EPIC-Kitchens、TVQA、YouCook2和MSR-VTT在内的多个基准上实现最先进性能？

主要发现

所提方法在视频分类任务上取得了最先进性能，在EPIC-Kitchens基准上优于先前方法。
在基于文本的片段检索任务上创下新的最先进结果，显著提升了YouCook2和MSR-VTT数据集上的性能。
在视频字幕生成任务中取得显著提升，在TVC、YouCook2和MSR-VTT数据集上超越了先前方法。
在视频问答任务的TVQA基准上实现了最先进结果，展现出强大的零样本泛化能力。
该框架消除了对大规模负样本采样和复杂课程策略的需求，简化了训练流程，同时保持或提升了性能。
统一架构通过使用同一预训练模型并辅以最少的适应调整，有效泛化于多样化的视频理解任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。