Skip to main content
QUICK REVIEW

[论文解读] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

Antoine Yang, Antoine Miech|arXiv (Cornell University)|Jun 16, 2022
Multimodal Machine Learning Applications被引用 64
一句话总结

本文提出 FrozenBiLM,这是一个将预训练的双向语言模型冻结并通过轻量级适配器和视觉到文本投影与冻结的视觉编码器连接起来的框架,从而通过视觉条件化的掩码语言建模实现零-shot VideoQA。它在多个 VideoQA 基准测试中展示了强劲的零-shot 性能,以及在少量-shot 和全监督结果上的竞争力。

ABSTRACT

Video question answering (VideoQA) is a complex task that requires diverse multi-modal data for training. Manual annotation of question and answers for videos, however, is tedious and prohibits scalability. To tackle this problem, recent methods consider zero-shot settings with no manual annotation of visual question-answer. In particular, a promising approach adapts frozen autoregressive language models pretrained on Web-scale text-only data to multi-modal inputs. In contrast, we here build on frozen bidirectional language models (BiLM) and show that such an approach provides a stronger and cheaper alternative for zero-shot VideoQA. In particular, (i) we combine visual inputs with the frozen BiLM using light trainable modules, (ii) we train such modules using Web-scraped multi-modal data, and finally (iii) we perform zero-shot VideoQA inference through masked language modeling, where the masked text is the answer to a given question. Our proposed approach, FrozenBiLM, outperforms the state of the art in zero-shot VideoQA by a significant margin on a variety of datasets, including LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA and TVQA. It also demonstrates competitive performance in the few-shot and fully-supervised setting. Our code and models are publicly available at https://github.com/antoyang/FrozenBiLM.

研究动机与目标

  • 推动无需人工视觉问答注释的可扩展零-shot VideoQA。
  • 利用冻结的双向语言模型(BiLMs)进行多模态推理。
  • 展示适配器和轻量级视觉到文本投影可以实现有效的视频-语言融合。
  • 展示在多样化的 VideoQA 数据集上零-shot、few-shot 和全监督的表现。

提出的方法

  • 使用在网络文本上通过 MLM 预训练的冻结 DeBERTa-V2-XLarge 双向语言模型。
  • 使用冻结的 CLIP ViT-L/14 视觉编码器提取帧特征。
  • 引入一个轻量级的视觉到文本投影 P,将视觉特征映射到语言模型的嵌入空间。
  • 在 Transformer 层周围插入轻量级适配器 A,以在不微调 BiLM 的情况下实现多模态交互。
  • 在 WebVid10M(视频-字幕数据)上使用视觉条件化的掩码语言建模损失对 P 和 A 进行训练。
  • 将下游任务形成带有冻结的 MLM 分类头加上任务特定答案头的完形填空式提示,以将掩码标记映射到有限的答案词汇表。

实验结果

研究问题

  • RQ1当与冻结的视觉主干和轻量级适配器配对时,冻结的双向语言模型能否有效用于零-shot VideoQA?
  • RQ2语言模型的大小和多模态训练数据量如何影响零-shot VideoQA 的性能?
  • RQ3将语音转录作为额外模态的影响是什么?
  • RQ4与自回归零-shot VideoQA 模型相比,FrozenBiLM 在准确性和训练效率方面有何不同?

主要发现

  • FrozenBiLM 在八个数据集上优于先前的零-shot VideoQA 方法。
  • 在跨模态培训中冻结 BiLM 权重比更新语言模型获得更强的零-shot 性能。
  • 增加视觉输入显著改善结果,语音在若干数据集上带来额外提升。
  • 更大的双向语言模型(如,DeBERTa-V2-XLarge)和更大规模的多模态训练数据提高零-shot 准确性。
  • 与冻结的自回归模型相比,在相似或更小的规模下,双向的 FrozenBiLM 提供更好的准确性与效率权衡。
  • 在微调时,该方法在 few-shot 和全监督设置下仍具竞争力,同时保持 BiLM 权重冻结。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。