[論文レビュー] Qwen2.5-VL Technical Report
Qwen2.5-VL は native dynamic resolution、absolute-time temporal encoding、windowed ViT encoders、そして document、grounding、long-video の能力を native に備えたフラグシップの vision-language モデルで、3 サイズ展開で利用可能。
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.
研究の動機と目的
- LVLM の細粒度知覚を高度化し、堅牢でエージェント可能な視覚モデルを構築する。
- 視覚エンコーダの native 解像度処理とウィンドウ注意機構により、効率とスケーラビリティを向上させる。
- 正確なイベント局在化を伴う堅牢な文書解析、グラウンディング、長尺動画理解を可能にする。
- 絶対時刻に合わせた MRoPE とダイナミック FPS サンプリングによる時相モデリングの強化。
- 前処理データを拡大し、堅牢なデータ編成とポスト訓練整合を実装して一般化を改善。
提案手法
- ネイティブ解像度での計算量を削減する窓付き注意機構を備えた Vision Transformer の再設計。
- ネイティブ動的解像度とダイナミック FPS サンプリングを導入し、変動する画像サイズや長尺動画へ対応。
- Temporal ID を絶対時刻と整合させる Multimodal Rotary Position Embedding (MRoPE) を拡張して時相学習を改善。
- ViT をゼロから前訓練し、大規模な LLM でファインチューニング、後期段階で合計最大 4.1T tokens、32,768 のシーケンス長に達する。
- マルチモーダル指示データを用いた SFT(Supervised Fine-Tuning)と DPO(Direct Preference Optimization)によるポスト訓練整合。
- データ編成・フィルタリングパイプラインには、ドメイン特有の QA 分類、ルール・モデルベースのフィルタリング、推論強化のための拒否サンプリングが含まれる。
実験結果
リサーチクエスチョン
- RQ1Qwen2.5-VL は細粒度の視覚知覚とグラウンディングを改善しつつ、言語機能を維持できるのか。
- RQ2 native dynamic resolution と absolute-time temporal encoding により、タスク特化のファインチューニングなしで長尺動画と文書の効率的かつ正確な多モーダル理解を実現できるのか。
- RQ3窓付き注意と 2D RoPE が画像・動画入力のスケーラビリティと性能に与える影響はどの程度か。
- RQ44T tokens に達する多様で厳選された前処理データと堅牢なポスト訓練整合はクロスドメイン一般化にどのように影響するか。
- RQ5Qwen2.5-VL はコンピュータやモバイル端末でエージェント的なタスクでどのような能力を示すのか。
主な発見
- モデルは正確な境界ボックス、ポイント、JSON 形式による強力なグラウンディングと文書解析を実現する。
- ネイティブ動的解像度を備えた二次的レベルのイベント局在化を伴う超長尺動画理解をサポートする。
- 3B、7B、72B の三つのモデルサイズで競争力の高い性能を提供し、72B は文書・図表理解でトップクラスのモデルと同等の性能を示す。
- 窓付き注意機構を備えた Vision Transformer をゼロから訓練し、ネイティブ解像度処理を犠牲にせずに効率化を達成する。
- 前処理データは 1.2T から約 4T tokens に拡大し、計算負荷を均衡させるダイナミックサンプリングを採用する。
- ポスト訓練の整合は SFT と DPO を組み合わせ、マルチモーダルタスクにおける指示追従と嗜好整合を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。