[論文レビュー] Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
Qwen2-VL は Naive Dynamic Resolution と Multimodal Rotary Position Embedding を導入し、異なる解像度の画像と動画を扱い、LVLMs を最大 72B パラメータまで拡大し、動画理解や多言語OCRを含む強力なマルチモーダルベンチマークを達成します。
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL .
研究の動機と目的
- 視覚言語モデルにおける固定解像度のボトルネックを打破し、人間の知覚スケールをより適切に模倣することを促す。
- 異なる解像度の入力を処理できる統一的な画像・動画マルチモーダルフレームワークの開発。
- モデルサイズ(2B、8B、72B)と訓練データ量を探索することによる LVLMs のスケーリング法則の調査。
- モダリティ間でテキスト、画像、動画情報を効果的に統合するための位置エンコーディングの強化。
- 単一のモデルで多言語、OCR、文書理解、動画理解、エージェント機能を実証。
提案手法
- Naive Dynamic Resolution を導入し、任意の解像度の画像を 2D-RoPE を用いて動的な数の視覚トークンに変換する。
- 絶対的な 2D 位置埋め込みを 2D Rotary Position Embedding (2D-RoPE) に置換して空間情報を捉える。
- Multimodal RoPE (M-RoPE) を提案し、回転埋め込みを時間軸、縦、高さ成分に分解してマルチモーダル融合を図る。
- 3D畳み込みとフレームサンプリングを用いた統一的な画像-動画訓練レジメンを使用し、長い動画を扱いつつトークン制限を維持する。
- 多様なマルチモーダルデータセットを用いて、3段階のトレーニングパイプライン(ViT pretraining、全モデルのアンフリージング、LLM instruction tuning)を採用し、2023年6月まで。
- 675M Vision Transformer バックボーンを持つ統一Qwen2-VLアーキテクチャを、2B、7B、72B LLMs に跨って動作させる。
実験結果
リサーチクエスチョン
- RQ1動的解像度が解像度を横断する視覚トークンの効率とモデルの知覚にどのように影響するか?
- RQ2M-RoPE と 2D-RoPE はテキスト・画像・動画の横断モーダル融合を改善できるか?
- RQ3モデルサイズとデータを増やしたときの LVLMs のスケーリング効果は、マルチモーダルベンチマークの精度の観点からどうなるか?
- RQ4統一された画像-動画フレームワークはOCR、文書理解、動画理解タスクで最先端の性能を達成できるか?
- RQ5公開データと内部ベンチマークで、既存の LVLMs と比較した多言語および OCR 能力はどうか?
主な発見
- Qwen2-VL-72B は、マルチモーダルベンチマーク全般で GPT-4o や Claude3.5-Sonnet などの先行モデルと競争力のある結果を達成。
- Qwen2-VL は DocVQA、InfoVQA、TextVQA、OCRBench で最先端の性能を達成。
- 本モデルは強力な多言語OCRと動画理解能力を示し、MTVQA や内部ベンチマークで多くの汎用 LVLMs を上回る。
- 文書・図表読取タスクは OCR関連指標で顕著な向上を示す。
- Video理解ベンチマークは、72Bモデルが複数のタスクでトップクラスの結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。