QUICK REVIEW

[論文レビュー] World Model on Million-Length Video And Language With Blockwise RingAttention

Hao Liu, Wilson Yan|arXiv (Cornell University)|Feb 13, 2024

Cognitive Science and Education Research被引用数 11

ひとこと要約

本論文は RingAttention を用いて、million-length のビデオと言語データを共同モデル化する最大級のコンテキスト変換器の訓練を行い、文脈を4K から 1M tokens へと段階的に増やし、長いマルチモーダル系列のための 7B-parameter モデルをオープンソース化します。

ABSTRACT

Enabling long-context understanding remains a key challenge in scaling existing sequence models -- a crucial component in developing generally intelligent models that can process and operate over long temporal horizons that potentially consist of millions of tokens. In this paper, we aim to address these challenges by providing a comprehensive exploration of the full development process for producing 1M context language models and video-language models, setting new benchmarks in language retrieval and new capabilities in long video understanding. We detail our long context data curation process, progressive context extension from 4K to 1M tokens, and present an efficient open-source implementation for scalable training on long sequences. Additionally, we open-source a family of 7B parameter models capable of processing long text documents and videos exceeding 1M tokens.

研究の動機と目的

長文の言語と長時間のビデオの共同理解を動機づけ、現実世界の複雑なシナリオをモデル化できるようにする。
テキスト・画像・ビデオにまたがる長さのあるシーケンスを処理するためのスケーラブルな訓練技術を開発する。
長文の推論と生成のためのmillion-token マルチモーダル文脈を可能にする 7B パラメータのモデル群をオープンソース化する。

提案手法

RingAttention を用いてトランスフォーマーの文脈を最大 1M tokens まで拡張し、文脈長を段階的に拡大する（32K → 1M）。
長い文脈のために theta を文脈長でスケーリングして RoPE の位置エンコーディングを拡張する。
訓練を 2 段階で実施する。 Stage I は長文脆の言語モデル（LWM-Text および LWM-Text-Chat）、Stage II はビジョン-言語モデル（LWM および LWM-Chat）。
混合長のシーケンスで訓練し、視覚と言語モダリティ間の損失をバランスさせるためにマスク付きシーケンスパッキングを実装する。
長文のチャット能力を可能にするために書籍からモデル生成の QA データセットを作成する。
VQGAN で視覚データをトークン化し、任意-任意のモダリティ訓練を可能にするために <vision>、<eof>、<eov> の明示的な区切りを挿入して視覚トークンを配置する。

実験結果

リサーチクエスチョン

RQ11M-token のコンテキストを持つトランスフォーマーは長文の言語とビデオデータを共同モデリングできるか？
RQ2マルチモーダルで長文コンテキストのシーケンスから効果的に学習するために必要な訓練戦略（データ混合、マスキング、損失の重み付け）は何か？
RQ3長文コンテキストモデルは、情報検索、長時間のビデオ理解、マルチモーダル生成タスクで、短い文脈のベースラインと比べてどうなるか？
RQ4進行的な文脈拡張と RoPE 外挿が短文の言語タスクに与える影響はどの程度か？
RQ5公開された 7B モデルは長文のチャットとマルチモーダルタスクでどの程度性能を発揮するか？

主な発見

1M コンテキストでの Single Needle Retrieval タスクにおいてほぼ完璧な針探査精度を達成。
32K、128K、1M コンテキストでのマルチ・ニードル検索設定において GPT-4 より競争力がある、または優れていることを示す。
短いコンテキストの言語タスクの性能を損なうことなくコンテキストを拡張でき、短いコンテキストのベンチマークでも同等かそれ以上の結果。
1時間以上の YouTube クリップ 500 本超の編纂映像を使った長時間のビデオ理解能力を示す。
長文の画像・映像生成および視覚言語データを用いたマルチモーダル QA を 1M tokens まで可能にする。
7B-parameter モデル群（LWM-Text、LWM-Text-Chat、LWM、LWM-Chat）を長文マルチモーダル系列のオープンソースとして公開。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。