Skip to main content
QUICK REVIEW

[논문 리뷰] World Model on Million-Length Video And Language With Blockwise RingAttention

Hao Liu, Wilson Yan|arXiv (Cornell University)|2024. 02. 13.
Cognitive Science and Education Research인용 수 11
한 줄 요약

논문은 RingAttention을 사용하여 백만 길이의 비디오와 언어 데이터를 공동 모델링하기 위해 가장 큰 컨텍스트 트랜스포머 중 하나를 훈련시키고, 컨텍스트를 4K에서 1M 토큰으로 점진적으로 증가시키며, 7B 매개변수 모델을 장기간 멀티모달 시퀀스에 대해 오픈소스로 공개합니다.

ABSTRACT

Enabling long-context understanding remains a key challenge in scaling existing sequence models -- a crucial component in developing generally intelligent models that can process and operate over long temporal horizons that potentially consist of millions of tokens. In this paper, we aim to address these challenges by providing a comprehensive exploration of the full development process for producing 1M context language models and video-language models, setting new benchmarks in language retrieval and new capabilities in long video understanding. We detail our long context data curation process, progressive context extension from 4K to 1M tokens, and present an efficient open-source implementation for scalable training on long sequences. Additionally, we open-source a family of 7B parameter models capable of processing long text documents and videos exceeding 1M tokens.

연구 동기 및 목표

  • 장기 형식의 언어와 긴 비디오의 공동 이해를 촉진하고 가능하게 하여 복잡한 현실 세계 시나리오를 모델링합니다.
  • 다양한 텍스트, 이미지, 비디오에 걸친 시퀀스에서 수백만 개의 토큰을 처리할 수 있는 확장 가능한 훈련 기술을 개발합니다.
  • 두 단계로 구성된 공개 소스 7B 매개변수 모델 패밀리를 공개하여 긴 형식의 추론 및 생성에 대해 1M 토큰 멀티모달 컨텍스트를 가능하게 합니다.]
  • method':['RingAttention을 사용하여 트랜스포머 컨텍스트를 최대 1M 토큰으로 확장하고 점진적 컨텍스트 길이 증가(32K → 1M).','긴 컨텍스트를 위해 컨텍스트 길이에 따라 theta를 확장하여 RoPE 위치 인코딩을 확장합니다.','두 단계로 학습: 1단계는 장-context 언어 모델(LWM-Text 및 LWM-Text-Chat)이고 2단계는 비전-언어 모델(LWM 및 LWM-Chat)로 구성된 두 단계로 학습합니다.','마스크된 시퀀스 패킹을 구현하여 혼합 시퀀스 길이에서 학습하고 비전과 언어 모달리티 간 손실의 균형을 맞춥니다.','책으로부터 생성된 모델 기반 QA 데이터 세트를 만들어 긴 컨텍스트 채팅 능력을 가능하게 합니다.','VQGAN으로 시각 데이터를 토큰화하고 시각 토큰에 명시적 <vision>, <eof>, <eov> 구분자를 삽입하여 모달리티 간 모든 대-모달리티 학습을 가능하게 합니다.']
  • research_questions':['1M 토큰 컨텍스트를 가진 트랜스포머가 긴 형식의 언어와 비디오 데이터를 공동으로 모델링할 수 있는가?','멀티모달, 긴 컨텍스트 시퀀스로부터 효과적으로 학습하기 위해 필요한 훈련 전략(데이터 혼합, 마스킹, 손실 가중치)은 무엇인가?','긴 컨텍스트 모델은 짧은 컨텍스트 기준선과 비교하여 검색, 긴 비디오 이해, 멀티모달 생성 작업에서 어떤 성능을 보이는가?','진행적 컨텍스트 증가 및 RoPE 외삽이 짧은 컨텍스트 언어 작업에 미치는 영향은?','출시된 7B 모델은 긴 형식 채팅 및 멀티모달 작업에서 얼마나 잘 작동하는가?']
  • key_findings':['1M 컨텍스트에서 싱글 바늘 리트리벌(Single Needle Retrieval) 작업에서 거의 완벽한 바늘 검색 정확도를 달성합니다.','32K, 128K, 1M 컨텍스트에서 특정 다중 바늘 검색 설정에서 GPT-4와 경쟁적이거나 우수한 성능을 보입니다.','짧은 컨텍스트 언어 작업 성능에 해를 끼치지 않고 컨텍스트를 확장하며, 짧은 컨텍스트 벤치마크에서 비슷하거나 더 나은 결과를 보입니다.','1시간 이상의 YouTube 편집본의 500개 이상 클립으로 구성된 긴 비디오 이해 능력을 입증합니다.','1M 토큰까지의 비전-언어 데이터로 긴 형식의 이미지 및 비디오 생성과 멀티모달 QA를 가능하게 합니다.','LWM-Text, LWM-Text-Chat, LWM, LWM-Chat으로 구성된 7B 매개변수 모델 군을 긴 토큰 멀티모달 시퀀스용으로 오픈 소스화했습니다.']
  • table_headers:[]
  • table_rows:[]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.