Skip to main content
QUICK REVIEW

[论文解读] World Model on Million-Length Video And Language With Blockwise RingAttention

Hao Liu, Wilson Yan|arXiv (Cornell University)|Feb 13, 2024
Cognitive Science and Education Research被引用 11
一句话总结

本论文训练了最大的上下文变换器之一,联合建模百万长度的视频和语言数据,使用 RingAttention,上下文从 4K 到 1M token 逐步增加,并开源了用于长序列多模态的 7B 参数模型。

ABSTRACT

Enabling long-context understanding remains a key challenge in scaling existing sequence models -- a crucial component in developing generally intelligent models that can process and operate over long temporal horizons that potentially consist of millions of tokens. In this paper, we aim to address these challenges by providing a comprehensive exploration of the full development process for producing 1M context language models and video-language models, setting new benchmarks in language retrieval and new capabilities in long video understanding. We detail our long context data curation process, progressive context extension from 4K to 1M tokens, and present an efficient open-source implementation for scalable training on long sequences. Additionally, we open-source a family of 7B parameter models capable of processing long text documents and videos exceeding 1M tokens.

研究动机与目标

  • 推动并实现对长篇语言和长视频的联合理解,以建模复杂的真实世界场景。
  • 开发可扩展的训练技术,处理跨文本、图像和视频的数百万令牌序列。
  • 开源一系列7B参数的模型,能够实现1M令牌多模态上下文,用于长篇推理和生成。

提出的方法

  • 使用 RingAttention 将变换器上下文扩展到多达1M个令牌,逐步增长上下文长度(32K → 1M)。
  • 通过将 theta 按上下文长度缩放来扩展 RoPE 位置编码,以适应长上下文。
  • 分两阶段训练:阶段I 长上下文语言模型(LWM-Text 与 LWM-Text-Chat)和阶段II 视觉-语言模型(LWM 与 LWM-Chat)。
  • 实现掩码序列打包,以在混合序列长度上训练并在视觉与语言模态之间平衡损失。
  • 创建一个基于书籍的模型生成型问答数据集,以实现长上下文聊天能力。
  • 使用 VQGAN 对视觉数据进行分词,并插入带有明确 <vision>、<eof>、<eov> 分隔符的视觉令牌,以实现任意模态间训练。

实验结果

研究问题

  • RQ1一个拥有1M上下文长度的变换器是否能联合建模长篇语言和视频数据?
  • RQ2为有效从多模态、长上下文序列中学习,需要哪些训练策略(数据混合、掩码与损失加权)?
  • RQ3在检索、长视频理解和多模态生成任务上,与短上下文基线相比,长上下文模型的表现如何?
  • RQ4渐进式上下文增长和 RoPE 外推对短上下文语言任务有何影响?
  • RQ5发布的7B模型在长篇聊天和多模态任务上的表现如何?

主要发现

  • 在1M上下文的单针检索任务中,实现近乎完美的针检索准确率。
  • 在32K、128K和1M上下文的多针检索设置中,表现与GPT-4相当或优于GPT-4。
  • 在不损害短上下文语言任务表现的前提下扩展上下文,且在短上下文基准上结果相似或更好。
  • 通过回答一个小时、500+片段的YouTube汇编展示了对长视频理解的能力。
  • 实现长篇图像和视频生成,以及在视觉-语言数据达到1M令牌的多模态问答。
  • 发布一系列7B参数模型(LWM-Text、LWM-Text-Chat、LWM、LWM-Chat)开源,为百万令牌的多模态序列提供。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。