QUICK REVIEW

[论文解读] VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Jing Liu, Sihan Chen|arXiv (Cornell University)|Apr 17, 2023

Multimodal Machine Learning Applications被引用 17

一句话总结

VALOR 引入一个三模态预训练模型（视觉-音频-语言），包含 MGA 和 MGC 任务，以及大规模 VALOR-1M 数据集，在多个跨模态基准上达到最先进结果。

ABSTRACT

In this paper, we propose a Vision-Audio-Language Omni-peRception pretraining model (VALOR) for multi-modal understanding and generation. Different from widely-studied vision-language pretraining models, VALOR jointly models relationships of vision, audio and language in an end-to-end manner. It contains three separate encoders for single modality representations, and a decoder for multimodal conditional text generation. We design two pretext tasks to pretrain VALOR model, including Multimodal Grouping Alignment (MGA) and Multimodal Grouping Captioning (MGC). MGA projects vision, language and audio to the same common space, building vision-language, audio-language and audiovisual-language alignment simultaneously. MGC learns how to generate text tokens in conditions of vision, audio or their both. To promote vision-audio-language pretraining research, we construct a large-scale high-quality tri-modality dataset named VALOR-1M, which contains 1M audiable videos with human annotated audiovisual captions. Extensive experiments show that VALOR can learn strong multimodal correlations and be generalized to various downstream tasks (e.g., retrieval, captioning and question answering), with different input modalities (e.g., vision-language, audio-language and audiovisual-language). VALOR achieves new state-of-the-art performances on series of public cross-modality benchmarks. Code and data are available at project page https://casia-iva-group.github.io/projects/VALOR.

研究动机与目标

通过将音频作为核心模态，将三模态理解从仅视觉-语言扩展到三模态。
提出一个端到端的 VALOR 架构，包含用于视觉、音频和语言的独立编码器和一个多模态解码器。
引入预文本任务 MGA 和 MGC，以跨模态和组（T-V、T-A、T-AV）对齐并生成。
构建 VALOR-1M——一个具有人工标注视听描述的大规模视觉-音频-语言数据集，以及 VALOR-32K 用于视听语言评测。

提出的方法

三个独立编码器（文本、视觉、音频）与一个用于条件文本生成的多模态解码器。
Multimodal Grouping Alignment (MGA)：对比学习，在细粒度、基于组的空间中将文本与视觉、音频和视听模态对齐。
Multimodal Grouping Captioning (MGC)：因果掩码语言模型，在视觉、音频或两者结合的条件下重建被掩蔽的文本标记，使用跨注意力来融合模态。
使用逐字/逐帧/逐剪辑的交互进行细粒度相似度计算，并对标记/帧/剪辑设置可学习权重。
训练目标将 MGA 和 MGC 损失结合，使用平衡超参数 alpha：L = alpha * L_MGA + L_MGC。
通过在检索、描述或问答任务中选择 MGA 或 MGC 损失，以及是否使用多模态解码器（取决于任务），将其适配到下游任务。

实验结果

研究问题

RQ1三模态预训练（视觉、音频、语言）是否能在跨模态理解方面超越仅视觉-语言的预训练？
RQ2MGA 和 MGC 是否能够在判别和生成任务中实现对视觉、音频和视听输入的鲁棒对齐与生成？
RQ3VALOR 在 VALOR-1M 与 VALOR-32K 下，在跨数据集的检索、描述与问答任务中表现如何？
RQ4VALOR 是否能够在有限的模态特定微调下，对视觉-语言、音频-语言和视听-语言基准具有泛化能力？
RQ5在三个模态的细粒度标记-帧/剪辑级交互中进行文本定位能带来哪些提升？

主要发现

VALOR 在广泛的跨模态基准上达到最先进结果，包括文本到视频检索、视频问答和文本到音频检索。
VALOR-32K AV 基准在视听检索和描述任务上表现强劲，在多个数据集（MSRVTT、DiDeMo、ActivityNet、LSMDC、VATEX）超过以往方法。
VALOR-B 变体（不同预训练数据）在仅视觉文本和视觉-音频文本任务上展现出具竞争力甚至优越的结果，表明有效的跨模态学习。
VALOR 在某些描述基准上以较少的参数量超越更大规模的视觉-语言模型，凸显三模态预训练带来的高效性提升。
VALOR-1M/VALOR-32K 数据和模态组别化预训练使检索、描述和问答在视觉、音频和视听输入上的跨模态泛化更加鲁棒。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。