QUICK REVIEW

[論文レビュー] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Zhe Chen, Jiannan Wu|arXiv (Cornell University)|Dec 21, 2023

Multimodal Machine Learning Applications被引用数 16

ひとこと要約

InternVL は視覚エンコーダを6Bパラメータにスケールさせ、8B multilingual LLMミドルウェアと整合させて32の一般的な視覚-言語ベンチマークに取り組み、知覚とマルチモーダル対話の両方を可能にする。

ABSTRACT

The exponential growth of large language models (LLMs) has opened up numerous possibilities for multimodal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the LLM, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on 32 generic visual-linguistic benchmarks including visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. It has powerful visual capabilities and can be a good alternative to the ViT-22B. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.

研究の動機と目的

視覚エンコーダと大規模言語モデルのギャップを埋めるため、視覚バックボーンをLLMの容量に合わせて拡張する。
多言語対応の、LLМに整合した視覚-言語ブリッジを開発し、対照的学習と生成タスクの双方をサポートできるようにする。
ウェブ規模のノイズデータと高品質なキャプションデータを効率的に学習するために、段階的な画像-テキスト整列を活用する。

提案手法

6Bパラメータの視覚エンコーダ（InternViT-6B）を、 multilingual LLaMA 系列から初期化された8Bパラメータの言語ミドルウェア（QLLaMA）と組み合わせて使用する。
オフ・ザ・シェルフのLLMデコーダと滑らかに相互作用できる、大規模なクロスモーダル橋渡しとして機能する言語ミドルウェアを導入する。
ウェブ規模データでの視覚-言語対照学習、質の高いデータを用いた視覚-言語生成訓練、次に指示データセットでの教師ありファインチューニングという3段階の段階的整列訓練を適用する。
特定の段階でLLMデコーダを凍結させたまま、ミドルウェア内の新しい学習可能なクエリとクロスアテンション層を訓練する。
InternVL を、ミドルウェアとLLMデコーダと組み合わせた場合に視覚言語システムとして、または知覚タスクの独立した視覚バックボーンとして機能させる。

実験結果

リサーチクエスチョン

RQ1大規模な言語モデルに整合したスケールアップ済みの視覚エンコーダは、視覚トランスフォーマーとLLM整合視覚言語モデルの性能差を埋められるだろうか？
RQ2段階的な画像-テキスト整列は、対照学習のためのウェブ規模のノイズデータと、生成学習のための高精細データを活用するのに効果的か？
RQ3Retrieval、Captioning、VQA、マルチモーダル対話を含む多様な視覚・視覚言語ベンチマークへ、InternVL アーキテクチャの適用性はどの程度か？
RQ46B の視覚エンコーダを 8B の多言語ミドルウェアと整合させることで、標準的な知覚および視覚言語タスクにおいて競争力のあるまたは最先端の結果を達成できるか？

主な発見

InternVL は 32 の一般的な視覚-言語ベンチマーク（画像/動画分類、検索、キャプション生成、VQA、マルチモーダル対話を含む）で最新性能を達成する。
6B の InternViT-6B エンコーダと 8B の QLLaMA ミドルウェアは強力なクロスモーダル表現を提供し、対照的学習と生成タスクの双方をサポートする。
段階的な画像-テキスト整列は、ウェブ規模のノイズデータでの効率的な訓練を可能にし、その後高品質な高細粒度データで安定性と性能を向上させる。
InternVL は ImageNet 系列でのリニアプロービング結果が強く、セマンティックセグメンテーションにおけるピクセルレベルの知覚能力は ViT-22B と比較して優れている。
既存の VLLMs と比較して、InternVL-C と InternVL-G はゼロショットの画像-テキスト検索およびクロスモーダル性能で競争力があり、マルチ言語設定で顕著な向上を示す。
モデルは LLaMA、Vicuna、InternLM などの LLM とスムーズに統合され、単独の視覚バックボーンとして、またはLLMデコーダを備えたマルチモーダルシステムとして機能できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。