[論文レビュー] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
Qwen-VL は Qwen-7B を基盤とし、視覚エンコードと位置認識アダプタを備えた多言語 vision-language モデルファミリで、様々な視覚中心タスクで最先端の性能を達成し、マルチ画像入力と grounding を可能にし、指示調整済みチャット variante を備える。
In this work, we introduce the Qwen-VL series, a set of large-scale vision-language models (LVLMs) designed to perceive and understand both texts and images. Starting from the Qwen-LM as a foundation, we endow it with visual capacity by the meticulously designed (i) visual receptor, (ii) input-output interface, (iii) 3-stage training pipeline, and (iv) multilingual multimodal cleaned corpus. Beyond the conventional image description and question-answering, we implement the grounding and text-reading ability of Qwen-VLs by aligning image-caption-box tuples. The resulting models, including Qwen-VL and Qwen-VL-Chat, set new records for generalist models under similar model scales on a broad range of visual-centric benchmarks (e.g., image captioning, question answering, visual grounding) and different settings (e.g., zero-shot, few-shot). Moreover, on real-world dialog benchmarks, our instruction-tuned Qwen-VL-Chat also demonstrates superiority compared to existing vision-language chatbots. Code, demo and models are available at https://github.com/QwenLM/Qwen-VL.
研究の動機と目的
- 画像とテキストの両方を知覚し理解できるオープンソース LVLM の開発を動機づける。
- Qwen-7B から Qwen-VL を構築するための小型ビジュアル受容体と3段階の訓練パイプラインを導入する。
- 境界ボックスの注釈による grounding や OCR を含む細粒度な視覚理解を可能にする。
- 現実世界の対話のために、多言語サポートとマルチ画像入力を備えた Qwen-VL および Qwen-VL-Chat を提供する。
- 幅広いビジョン言語ベンチマークで競争力のある、または最新の性能を示す。
提案手法
- 基盤として Qwen-7B ベースの LLM を使用する。
- OpenClip の ViT-bigG から初期化された Vision Transformer ベースの視覚エンコーダを追加する。
- 位置認識を持つ VL アダプタを組み込み、学習可能なクエリベクトルとのクロスアテンションを介して画像特徴を 256 に圧縮する。
- grounding タスクのために画像特徴と境界ボックス文字列を示す特殊トークンを提供する。
- 三段階で訓練する: 第1段階は大規模な画像-テキスト対で事前訓練、LLM は凍結, 第2段階は高解像度とデータの挿入を組み合わせたマルチタスク事前訓練, 第3段階は指示調整で Qwen-VL-Chat を得る。
実験結果
リサーチクエスチョン
- RQ1オープンソースの LVLM が、キャプション生成、VQA、 grounding、テキスト指向タスクのいずれでも中規模モデルで競争力の性能を達成できるか?
- RQ2高解像度の視覚エンコーダと軽量な VL アダプタは、細粒度の知覚と局在化を改善しますか?
- RQ3マルチタスク事前訓練と指示調整が、マルチ言語・マルチ画像・ grounding 能力へどの程度効果的に転移できるか?
- RQ4参照表現理解と OCR 関連タスクにおける grounding とテキスト読取能力の ゲインは何か?
主な発見
- Qwen-VL および Qwen-VL-Chat は、同程度の規模で広範な vision-centric ベンチマークでトップクラスの精度を達成する。
- Qwen-VL は Flickr30K zero-shot captioning で 85.8 CIDEr を達成し、より大きなモデルを上回る。
- Qwen-VL は VQA ベンチマークで強力な結果を示す(VQAv2 79.5、OKVQA 58.6、GQA 59.3)およびテキスト指向 VQA(OCR-VQA、TextVQA、DocVQA)。
- Refer expression comprehension の結果は RefCOCO、RefCOCO+、RefCOCOg、GRIT 全体で最新水準。
- Qwen-VL を用いた少数ショットのインコンテキスト学習は、選択された VL タスクでより大規模モデルの性能に近づく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。