QUICK REVIEW

[論文レビュー] InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Jinguo Zhu, Weiyun Wang|ArXiv.org|Apr 14, 2025

Multimodal Machine Learning Applications被引用数 4

ひとこと要約

InternVL3はネイティブ多模態事前学習、可変視覚位置エンコーディング、事後学習戦略を導入し、オープンソースの最先端MLLMとしての性能を実現。強力な多模态および言語性能を達成。

ABSTRACT

We introduce InternVL3, a significant advancement in the InternVL series featuring a native multimodal pre-training paradigm. Rather than adapting a text-only large language model (LLM) into a multimodal large language model (MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and linguistic capabilities from both diverse multimodal data and pure-text corpora during a single pre-training stage. This unified training paradigm effectively addresses the complexities and alignment challenges commonly encountered in conventional post-hoc training pipelines for MLLMs. To further improve performance and scalability, InternVL3 incorporates variable visual position encoding (V2PE) to support extended multimodal contexts, employs advanced post-training techniques such as supervised fine-tuning (SFT) and mixed preference optimization (MPO), and adopts test-time scaling strategies alongside an optimized training infrastructure. Extensive empirical evaluations demonstrate that InternVL3 delivers superior performance across a wide range of multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its capabilities remain highly competitive with leading proprietary models, including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also maintaining strong pure-language proficiency. In pursuit of open-science principles, we will publicly release both the training data and model weights to foster further research and development in next-generation MLLMs.

研究の動機と目的

一段階で言語能力と多模态能力を学習するネイティブ多模态事前学習パラダイムを開発し、事後整合を必要としない。
Variable Visual Position Encoding (V2PE) によるスケーラビリティと文脈処理の改善。
事後学習戦略（Supervised Fine-TuningとMixed Preference Optimization）および推論時スケーリングによる性能向上。
オープンソースの競争力を、最先端のMMMUや他の多模态ベンチマークで示す。
次世代のMLLMsにおけるオープンサイエンスを支えるインフラとデータ公開計画を提供。

提案手法

テキストと多模态データを同時に最適化するネイティブ多模态事前学習を提案し、二段階のテキスト事前学習と多模态整合に依らない。
視覚入力を条件付けに用いながらテキストトークンのみに損失を計算する多模态自己回帰目的を使用。
長いモーダリティ文脈を可能にするVariable Visual Position Encoding (V2PE) を組み込み、モダリティ固有の位置増分を導入。
多模态会話と推論を強化する二段階の事後学習：Supervised Fine-Tuning (SFT) と Mixed Preference Optimization (MPO) を適用。
推論時のスケーリング（Best-of-NとVisualPRMを批評家として使用）を用いて推論能力と数学タスクを強化。
ViT、MLP、LLMコンポーネント間でスケーラブルかつバランスの取れた訓練を支援する強化されたInternEVOフレームワークで訓練インフラを拡張。

実験結果

リサーチクエスチョン

RQ1ネイティブ多模態事前学習アプローチは、オープンソースのMLLMsにおける後付け整合パイプラインを超えられるのか。
RQ2可変視覚位置エンコーディングは長大な多模态文脈の処理と下流性能にどのように影響するのか。
RQ3SFTとMPOは多模态推論、ツール使用、GUIタスク、ドメイン特有の理解にどのような影響を与えるのか。
RQ4推論時のスケーリング（批評家モデルを用いる）がオープンソースMLLMsの推論・数学ベンチマークを改善する効果は。
RQ5InternVL3クラスの大規模モデルを効率的に訓練するためにどのようなインフラ最適化が必要か。

主な発見

InternVL3-78BはMMMUで72.2を達成し、オープンソースMLLMsの新たな最先端を樹立。
InternVL3の派生モデルは従来のInternVL系列を大きく上回り、複数のベンチマークで主要なクローズドソースモデルと競合的。
多模态推論と数学タスクにおいて、InternVL3派生はMMMU、MathVista、MathVision、MathVerse、他のベンチマークで強力な性能を示し、モデルサイズが大きくなるほど利得が拡大。
推論時Best-of-Nと批評家モデルVisualPRMの併用は、小規模モデルでもMathVerse Vision-Onlyで6〜9ポイント程度の改善を含む顕著な利益を生む。
SFTは高品質データで、MPOは好ましい回答と拒否回答を整合させることにより、多模态推論と生成品質を大幅に改善。
拡張されたInternEVOベースのインフラは、同程度のサイズのモデルで訓練速度を50%〜200%向上させ、数百億パラメータ級への効率的なスケーリングを実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。