Skip to main content
QUICK REVIEW

[论文解读] VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding

Zhihao He, Tieyuan Chen|arXiv (Cornell University)|Jan 25, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

VidLaDA 引入用于视频理解的双向扩散语言模型,实现并行令牌预测与更强的时空建模;MARS-Cache 提供超过 12x 的推理加速且不损失精度。它与最先进的 AR 基线竞争。

ABSTRACT

Current Video Large Language Models (Video LLMs) typically encode frames via a vision encoder and employ an autoregressive (AR) LLM for understanding and generation. However, this AR paradigm inevitably faces a dual efficiency bottleneck: strictly unidirectional attention compromises understanding efficiency by hindering global spatiotemporal aggregation, while serial decoding restricts generation efficiency. To address this, we propose VidLaDA, a Video LLM based on Diffusion Language Models (DLMs) that leverages bidirectional attention to unlock comprehensive spatiotemporal modeling and decode tokens in parallel. To further mitigate the computational overhead of diffusion decoding, we introduce MARS-Cache, an acceleration strategy that prunes redundancy by combining asynchronous visual cache refreshing with frame-wise chunk attention. Experiments show VidLaDA rivals state-of-the-art AR baselines (e.g., Qwen2.5-VL and LLaVA-Video) and outperforms DLM baselines, with MARS-Cache delivering over 12x speedup without compromising accuracy. Code and checkpoints are open-sourced at https://github.com/ziHoHe/VidLaDA.

研究动机与目标

  • 解决现有依赖自回归解码的视频大型语言模型在效率与有效性方面的差距。
  • 提出一个双向扩散语言模型,以改善视频的时空理解。
  • 通过面向多模态数据设计的加速框架,缓解扩散解码的计算开销。
  • 证明双向扩散在标准视频推理基准上可与 AR 模型相媲美。

提出的方法

  • 使用具有完全双向注意力的扩散语言模型,以释放视觉令牌与文本提示之间的全局时空交互。
  • 将视频帧处理为时空视觉令牌,与提示和部分响应在掩模扩散框架中进行组合。
  • 通过从短片段到长视频的多阶段课程训练 VidLaDA,以处理分钟级、长时长理解的挑战。
  • 引入 MARS-Cache,通过逐帧块注意力、自适应锚令牌搜索,以及跨模态与网络深度的异步缓存刷新,剪枝冗余计算。
Figure 1 : The overall architecture of VidLaDA. Input video frames ${\mathcal{V}}$ are encoded and spatially pooled (via $2\times 2$ downsampling) before being unrolled into a sequence of Spatiotemporal Visual Tokens ${{\bm{E}}^{\mathcal{V}}}$ . These tokens, combined with the text prompt $P$ and th
Figure 1 : The overall architecture of VidLaDA. Input video frames ${\mathcal{V}}$ are encoded and spatially pooled (via $2\times 2$ downsampling) before being unrolled into a sequence of Spatiotemporal Visual Tokens ${{\bm{E}}^{\mathcal{V}}}$ . These tokens, combined with the text prompt $P$ and th

实验结果

研究问题

  • RQ1双向扩散解码是否能比自回归基线提升视频 LLM 的时空理解?
  • RQ2MARS-Cache 框架是否在不损失精度的前提下为多模态扩散解码带来显著的加速?
  • RQ3在多样基准(如 LongVideoBench、MLVU、EgoSchema)上,VidLaDA 的表现相较最先进的 AR 与 DLM 视频 LLM 如何?

主要发现

  • VidLaDA 持续优于现有 DLM 基线,并与顶尖 AR 视频 LLMs 相当具竞争力。
  • MARS-Cache 在不损失精度的前提下,提供超 12x 的吞吐提升,相较于原始 DLM 解码。
  • 双向注意力缓解了非对称感受野问题,提升了全局时空证据的聚合能力。
  • 实验表明 VidLaDA 在需要复杂时空推理和长视频理解的任务中表现出色。
  • 在 CoT 推理中,使用 MARS-Cache 的吞吐提升在 8-12x 的区间保持显著,在 CoT 设置下常常超过 AR 的吞吐。
  • 消融实验表明锚令牌和异步刷新对在准确性与效率之间的平衡至关重要。
(a) Intra-Frame: Spatial Ordering.
(a) Intra-Frame: Spatial Ordering.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。