[論文レビュー] VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters
VisionPanguは、軽量なビジョンエンコーダと言語バックボーンを高品質な監視(DOCCIとLLaVA-NeXT)で整列させることで、詳細な画像キャプションを達成する1.7Bのマルチモーダルなコンパクトモデルです。
Large Multimodal Models (LMMs) have achieved strong performance in vision-language understanding, yet many existing approaches rely on large-scale architectures and coarse supervision, which limits their ability to generate detailed image captions. In this work, we present VisionPangu, a compact 1.7B-parameter multimodal model designed to improve detailed image captioning through efficient multimodal alignment and high-quality supervision. Our model combines an InternVL-derived vision encoder with the OpenPangu-Embedded language backbone via a lightweight MLP projector and adopts an instruction-tuning pipeline inspired by LLaVA. By incorporating dense human-authored descriptions from the DOCCI dataset, VisionPangu improves semantic coherence and descriptive richness without relying on aggressive model scaling. Experimental results demonstrate that compact multimodal models can achieve competitive performance while producing more structured and detailed captions. The code and model weights will be publicly available at https://www.modelscope.cn/models/asdfgh007/visionpangu.
研究の動機と目的
- 大規模モデルを用いずに有能なマルチモーダルアシスタントを構築するモチベーションを高める。
- 細粒度で意味的に一貫した画像キャプションを改善する。
- 高品質で長文の監督を活用して横断モーダルの整合性を導く。
- 効率的なアーキテクチャがキャプショニングタスクで大規模モデルに匹敵できることを示す。
提案手法
- denseな視覚表現のためにInternVL由来のビジョンエンコーダをファインチューニングする。
- 視覚エンコーダを軽量MLPプロジェクターを介してOpenPangu-Embedded-1B言語モデルとペアリングする。
- 2段階の指示チューニングを行う: (1) 特徴整列(凍結されたコンポーネントで), (2) 全パラメータ微調整。
- LLaVA-NeXTによる一般的なマルチモーダル指示追従とDOCCIによる密な長文記述の監督を混在させる。
- 投影された視覚特徴H_vに条件付けされた自回帰型マルチモーダル目的を追従する。
実験結果
リサーチクエスチョン
- RQ1コンパクトな1.7Bパラメータのマルチモーダルモデルは、どのようにして詳細で長文のキャプションを実現できるか。
- RQ2高品質な監督(DOCCI)と指示チューニングは、視覚的ナarrationの意味的一貫性を向上させるか。
- RQ3軽量なプロジェクションレイヤーと適応型ビジョンエンコーダは、大規模モデルのキャプショニング品質に匹敵するか、近づけるか。
主な発見
- VisionPanguは、詳細キャプショニングのベンチマークにおいてコンパクトモデルの中で最高のBLEU、METEOR、およびROUGE-Lスコアを達成(BLEU 0.2859、METEOR 0.4708、ROUGE-L 0.3759)。
- モデルは1.7Bパラメータにもかかわらず、標準的なマルチモーダルベンチマーク(MMMU、MMbench、POPE、MME)で競争力のある性能を発揮する。
- DOCCIによる密なキャプション監督は、パッチベースのキャプショニングと比較して物語の豊かさと全体的な意味 groundedを向上させる。
- 凍結されたビジョンエンコーダによる特徴整列と全パラメータSFTという2段階のトレーニングにより、過度な計算を要せずに効果的な横断モーダル相互作用を実現する。
- このアプローチは、高品質な監督と効率的なアーキテクチャ設計を組み合わせると、コンパクトなバックボーンでも大規模モデルに対抗できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。