[论文解读] VideoLLM: Modeling Video Sequence with Large Language Models
VideoLLM 使用 模态编码器 和 语义翻译器 将 视频序列 映射 到 统一 的 代币 流,从而 使 仅解码器 的 LLM 能够 在 参数高效 微调 下 执行 多样 的 视频序列 理解 任务。
With the exponential growth of video data, there is an urgent need for automated technology to analyze and comprehend video content. However, existing video understanding models are often task-specific and lack a comprehensive capability of handling diverse tasks. The success of large language models (LLMs) like GPT has demonstrated their impressive abilities in sequence causal reasoning. Building upon this insight, we propose a novel framework called VideoLLM that leverages the sequence reasoning capabilities of pre-trained LLMs from natural language processing (NLP) for video sequence understanding. VideoLLM incorporates a carefully designed Modality Encoder and Semantic Translator, which convert inputs from various modalities into a unified token sequence. This token sequence is then fed into a decoder-only LLM. Subsequently, with the aid of a simple task head, our VideoLLM yields an effective unified framework for different kinds of video understanding tasks. To evaluate the efficacy of VideoLLM, we conduct extensive experiments using multiple LLMs and fine-tuning methods. We evaluate our VideoLLM on eight tasks sourced from four different datasets. The experimental results demonstrate that the understanding and reasoning capabilities of LLMs can be effectively transferred to video understanding tasks. We release the code at https://github.com/cg1177/VideoLLM.
研究动机与目标
- 激励 将 序列 推理 从 大型语言模型(LLMs) 转移 到 视频序列 理解。
- 开发 一个 即插即用 的 框架(Modality Encoder + Semantic Translator)来 对齐 视觉 与 文本 模态。
- 使 仅解码器 的 LLM 能在 最少的 任务特定 定制 下 执行 多样 的 视频 任务。
提出的方法
- 将 视频 编码 成 短期 视觉 单元, 通过 时序 级 划分; 池化 为 时序 令牌。
- 使用 轻量 语义 译者 将 视觉 语义 转换 为 语言 语义。
- 将 仅解码器 LLM 作为 通用 视频 序列 推理器,并 配置 任务 头 以 支持 各种 任务。
- 采用 三种 微调 方案(basic tuning, partial tuning, PEFT)来 高效 适配 LLMs。
- 在 四个 数据集 上,对 八 项 任务 使用 多样 的 LLMs(GPT-2, T5 Decoder, OPT, etc.) 。
实验结果
研究问题
- RQ1当 与 视觉到语言 翻译器 结合 时, 冻结 或 轻微 微调 的 LLMs 能否 对 视频序列 进行 推理?
- RQ2不同 的 LLM 架构 与 微调 方法 如何 影响 在 各种 视频序列 任务 上 的 性能?
- RQ3单 一 的 仅解码器 LLM 是否 足以 同时 处理 仅 视觉 与 视觉-语言 的 视频 理解 任务?
- RQ4VideoLLM 随 着 LLM 参数 增加 在 各 任务 上 的 可扩展性 是 如何?
- RQ5所 提出的 适配 原则 与 基线 基于 任务 的 指标 相比,在 八 个 视频 任务 上 的 表现 如何?
主要发现
- VideoLLM 在 相较 于 任务特定 模型 的 七 个 视频 序列 任务 上 实现 具竞争力 的 或 者 最新 状态 的 结果。
- 不同 的 基础 LLM 展现 出 依 任务 而定 的 优势;OPT 通常 在 在线 行为 检测 与 时刻 相关 任务 上 表现 出色,而 T5 Decoder 在 密集 预测 场景 中 表现 优越。
- PEFT 微调,结合 prefix tuning,在 所 测试 的 设置 下,可 将 OAD recall 提升 约 1.3 点,相较 于 basic tuning。
- 增大 LLM 大小 在 某些 情况 下 提高 性能 到 一定 程度(例如 OPT-1.3B 显示 出 色),而 极大 模型 在 某些 设置 下 回报 递减。
- 在 各 任务 中,VideoLLM 使用 约 2M 到 15M 的 可训练 参数, 主要 位于 语义 译者 与 任务 头,表明 参数 效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。