QUICK REVIEW

[论文解读] VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Zesen Cheng, Sicong Leng|arXiv (Cornell University)|Jun 11, 2024

Music and Audio Processing被引用 10

一句话总结

VideoLLaMA 2 引入了时空卷积（STC）连接器和联合训练的音频分支，以提升多模态视频理解，在 MC-VQA、OE-VQA 和视频字幕任务上与开源模型竞争，并接近部分专有模型的性能。

ABSTRACT

In this paper, we present the VideoLLaMA 2, a set of Video Large Language Models (Video-LLMs) designed to enhance spatial-temporal modeling and audio understanding in video and audio-oriented tasks. Building upon its predecessor, VideoLLaMA 2 incorporates a tailor-made Spatial-Temporal Convolution (STC) connector, which effectively captures the intricate spatial and temporal dynamics of video data. Additionally, we integrate an Audio Branch into the model through joint training, thereby enriching the multimodal understanding capabilities of the model by seamlessly incorporating audio cues. Comprehensive evaluations on multiple-choice video question answering (MC-VQA), open-ended video question answering (OE-VQA), and video captioning (VC) tasks demonstrate that VideoLLaMA 2 consistently achieves competitive results among open-source models and even gets close to some proprietary models on several benchmarks. Furthermore, VideoLLaMA 2 exhibits reasonable improvements in audio-only and audio-video question-answering (AQA & OE-AVQA) benchmarks over existing models. These advancements underline VideoLLaMA 2's superior performance in multimodal comprehension, setting a new standard for intelligent video analysis systems. All models are public to facilitate further research.

研究动机与目标

通过更好地捕捉视频数据的时空动态来提升视频语言理解。
通过联合训练的音频分支改善音视频集成。
在保持视觉分支和音频分支部分分离的同时，允许在大语言模型中进行跨模态推理，保持模块化训练。

提出的方法

采用双分支架构：视觉-语言分支使用图像级 CLIP 主干（ViT-L/14），并具备专用的 STC 连接器以进行时空表示学习。
实现一个音频-语言分支，使用 BEATs 作为音频编码器，并用 MLP 将音频特征对齐到 LLM 维度。
引入一个时空卷积连接器（STC），由两个 RegStage 块和一个 3D 下采样器组成，保持标记顺序并降低标记数量。
使用冻结的视觉编码器，在视频语言预训练和多任务微调过程中对 STC 连接器和语言模型进行微调。
执行多阶段训练：对图像-视频-文本数据进行预训练、视频语言多任务微调、音频语言预训练，以及音频-视频联合训练。
在 MC-VQA、OE-VQA、VC 和 AQA/OE-AVQA 基准上进行零-shot 评估，比较开源和专有基线。

实验结果

研究问题

RQ1如何通过专用的时空卷积连接器提升视频语言模型在时空信息融合上的效果？
RQ2是否增加一个联合训练的音频分支能够增强视频 LLaMA 2 的多模态理解和跨模态推理？
RQ3在 MC-VQA、OE-VQA、VC 以及音视频任务上，VideoLLaMA 2 相对于开源与专有 Video-LMMs 的增益有多大？

主要发现

VideoLLaMA 2 在 7B 与 8x7B 主干下在 MC-VQA 上对开源模型具有竞争力，甚至在某些基准上超过部分专有模型。
在 EgoSchema、Perception-Test 与 MV-Bench MC-VQA 任务上，VideoLLaMA 2-7B 相较于以前的开源 SOTA（如 LLaVA-NeXT-Video）有提升，并在 MV-Bench 上击败 GPT4-V。
在视频字幕任务（MSVC）中，VideoLLaMA 2 相较于所有其他开源模型获得更高的正确性和细致度，尽管在某些指标上 GPT4-V 仍更强。
对于 OE-VQA，VideoLLaMA 2 通常优于多家开源基线，并在 MSVD 与 Video-ChatGPT 等任务上与 LLAVA-NeXT-Video 相当。
音频理解基准对音频-语言及音频-视频任务显示出强劲表现，得到音视频联合训练阶段的支持。
将 LLM 主干从 7B 提升到 Mixtral-8x7B 在 MC-VQA 表现上带来显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。