[論文レビュー] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
InternVL 1.5 は、視覚エンコードを強化し、高解像度入力を可能にし、バイリンガルデータを拡充することで、GPT-4V などの商用モデルとの差を縮めるオープンソースのマルチモーダル大規模言語モデルである。いくつかのベンチマークで最先端の結果を達成している。
In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model -- InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$ imes$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.
研究の動機と目的
- オープンソースと専有のマルチモーダルモデル間の能力格差をマルチモーダル理解の分野で埋める。
- InternViT-6B の継続的学習を通じて、より強力な視覚エンコーダで視覚特徴抽出を強化する。
- 効率を維持しつつ、4K までの高解像度のタイルベース画像処理を実現する。
- 高品質なバイリンガルデータセットと翻訳パイプラインを通じて、英中のバイリンガルマルチモーダル性能を向上させる。
提案手法
- 強力な視覚エンコーダ (InternViT-6B) を MLP プロジェクターを介して LLM (InternLM2-20B) と統合し、ViT-MLP-LLM アーキテクチャを採用する。
- 訓練時には 1–12 タイル、推論時には最大 40 タイルの 448x448 パッチに画像をタイル化することで、動的な高解像度入力を実装し、4K 解像度に到達させる。
- OCRや他のマルチモーダルタスクの英語および中国語の注釈を網羅する、多様で高品質なバイリンガルデータセットを用いて事前学習する。
- 英語データセットを中国語(および潜在的に他言語)へ変換するデータ翻訳パイプラインを用いて、多言語機能を強化する。
- 初期の視覚およびプロジェクショントレーニングの後、全体のモデル(26B パラメータ)を微調整してマルチモーダル性能を最適化する。
実験結果
リサーチクエスチョン
- RQ1オープンソースの MLLM は、OCR、一般的なマルチモーダル、数学、マルチターン会話のベンチマークで、主要な商用モデルの性能にどれだけ近づくことができるか?
- RQ2視覚エンコーダの強さ、高解像度の動的入力、およびバイリンガルデータ品質のどの組み合わせが、マルチモーダル理解とバイリンガル能力に最大の効果をもたらすか?
- RQ3これらの改善を加えたオープンソースモデルは、文書・OCR中心のタスクで競合を上回りつつ、堅牢な多言語性能を維持できるか?
主な発見
- InternVL 1.5 は、18のマルチモーダルベンチマークでオープンソースモデルと専有モデルの競合的なパフォーマンスを達成する。
- 本モデルは、ChartQA や OCRBench などの OCR 関連タスクを含む18ベンチマークのうち8件で最先端の結果を達成している。
- OCRおよび文書指向のタスクでは、InternVL 1.5 は複数のデータセットで主要な商用モデルを上回ることができ、強力な中国語能力を示す。
- 動的な高解像度処理により、近似的に4K入力を扱える一方で、低タイル数で安定した性能を維持する。
- 視覚エンコーダ (InternViT-6B) の継続的学習は、視覚表現を実務上、はるかに大きなLLMsに匹敵するレベルへ高める。
- 数学推論タスクでは、MathVista関連のベンチマークで、GPT-4V を含むいくつかの競合を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。