QUICK REVIEW

[論文レビュー] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

Zhe Chen, Weiyun Wang|arXiv (Cornell University)|Apr 25, 2024

Reservoir Engineering and Simulation Methods被引用数 16

ひとこと要約

InternVL 1.5 は、視覚エンコードを強化し、高解像度入力を可能にし、バイリンガルデータを拡充することで、GPT-4V などの商用モデルとの差を縮めるオープンソースのマルチモーダル大規模言語モデルである。いくつかのベンチマークで最先端の結果を達成している。

ABSTRACT

In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model -- InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$ imes$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.

研究の動機と目的

オープンソースと専有のマルチモーダルモデル間の能力格差をマルチモーダル理解の分野で埋める。
InternViT-6B の継続的学習を通じて、より強力な視覚エンコーダで視覚特徴抽出を強化する。
効率を維持しつつ、4K までの高解像度のタイルベース画像処理を実現する。
高品質なバイリンガルデータセットと翻訳パイプラインを通じて、英中のバイリンガルマルチモーダル性能を向上させる。

提案手法

強力な視覚エンコーダ (InternViT-6B) を MLP プロジェクターを介して LLM (InternLM2-20B) と統合し、ViT-MLP-LLM アーキテクチャを採用する。
訓練時には 1–12 タイル、推論時には最大 40 タイルの 448x448 パッチに画像をタイル化することで、動的な高解像度入力を実装し、4K 解像度に到達させる。
OCRや他のマルチモーダルタスクの英語および中国語の注釈を網羅する、多様で高品質なバイリンガルデータセットを用いて事前学習する。
英語データセットを中国語（および潜在的に他言語）へ変換するデータ翻訳パイプラインを用いて、多言語機能を強化する。
初期の視覚およびプロジェクショントレーニングの後、全体のモデル（26B パラメータ）を微調整してマルチモーダル性能を最適化する。

実験結果

リサーチクエスチョン

RQ1オープンソースの MLLM は、OCR、一般的なマルチモーダル、数学、マルチターン会話のベンチマークで、主要な商用モデルの性能にどれだけ近づくことができるか？
RQ2視覚エンコーダの強さ、高解像度の動的入力、およびバイリンガルデータ品質のどの組み合わせが、マルチモーダル理解とバイリンガル能力に最大の効果をもたらすか？
RQ3これらの改善を加えたオープンソースモデルは、文書・OCR中心のタスクで競合を上回りつつ、堅牢な多言語性能を維持できるか？

主な発見

InternVL 1.5 は、18のマルチモーダルベンチマークでオープンソースモデルと専有モデルの競合的なパフォーマンスを達成する。
本モデルは、ChartQA や OCRBench などの OCR 関連タスクを含む18ベンチマークのうち8件で最先端の結果を達成している。
OCRおよび文書指向のタスクでは、InternVL 1.5 は複数のデータセットで主要な商用モデルを上回ることができ、強力な中国語能力を示す。
動的な高解像度処理により、近似的に4K入力を扱える一方で、低タイル数で安定した性能を維持する。
視覚エンコーダ (InternViT-6B) の継続的学習は、視覚表現を実務上、はるかに大きなLLMsに匹敵するレベルへ高める。
数学推論タスクでは、MathVista関連のベンチマークで、GPT-4V を含むいくつかの競合を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。