QUICK REVIEW

[論文レビュー] InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Xiaoyi Dong, Pan Zhang|arXiv (Cornell University)|Apr 9, 2024

Multimodal Machine Learning Applications被引用数 7

ひとこと要約

InternLM-XComposer2-4KHD は、336 から 4K HD までの解像度を扱う大規模なビジョン-言語モデルで、ダイナミックなパッチ構成とグローバル-ローカルな入力設計を用い、7B parameters で競争力のある結果を達成し、複数のHD-OCRベンチマークでいくつかのクローズドAPIを上回る。

ABSTRACT

The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

研究の動機と目的

LVLM の解像度能力を 4K HD まで拡張し、336 から 4K の解像度を多様な入力でサポートする。
縦横比を維持しつつ高解像度理解を可能にする動的パッチベースの画像分割とトレーニング戦略を開発する。
ターゲットを絞った事前学習とファインチューニングを通じて高解像度OCRと文書理解を向上させる。
閉鎖ソースAPIおよび既存のオープンソースLVLMと比較して、幅広いベンチマークで競争力を示す。

提案手法

Vision Encoder (ViT-L/14) を備えた InternLM-XComposer2 の拡張と、Partial LoRA を介して効率的に整合を図る 7B LLM (InternLM2-7B) を接続。
Dynamic Image Partition を導入：入力を 336px パッチのグリッドにリサイズ/パディングし、HD-25/HD-55 および 4KHD まで調整可能としつつ、画像のアスペクト比を維持。
Global-Local Format を実装：グローバルな 336x336 表とローカルパッチベースの特徴を処理し、それらを統一表現へ統合。
各パッチ列の末尾に学習可能な改行トークンを追加して2D構造を明確に区切り、トレーニング中の曖昧さを低減。
視覚エンコーダを微調整し、LLMを凍結したまま視覚トークンをLLMへ整列させるセマンティック／世界知識／能力データの混合データで学習、低ランクの Partial LoRA を採用し、LLDR 衰退と段階的学習率を含むトレーニング戦略。
HD-OCR および一般的なビジョン-言語タスクのパフォーマンスを最適化するため、混合解像度戦略（高解像度タスクにはHD-55、その他は動的解像度）でファインチューニング。

実験結果

リサーチクエスチョン

RQ1高解像度タスク（OCR、図表、インフォグラフィック）でトレーニング・推論解像度を増やすことは性能にどのように影響するか？
RQ2動的パッチ構成と自動レイアウトにより LVLM の能力が336pxから4Kへスケールし、アスペクト比を維持できるか？
RQ3グローバルビューとローカルパッチおよび改行トークンが LVLM の2D画像理解に及ぼす影響は？
RQ4IXC2-4KHD は、HD-OCR タスクを含む広範なベンチマークで、クローズドソースAPIおよびオープンソースLVLM と比較してどうか？

主な発見

IXC2-4KHD は 7B パラメータで競争力のある結果を達成し、16 ベンチマーク中 10 のベンチマークで GPT-4V と Gemini Pro に匹敵または上回る。
オープンソースLVLM の中で 16 のベンチマークのうち 6 でSOTAを達成し、いくつかのタスクでクローズドAPIに近づく。
4K HD 解像度までのトレーニングはHD-OCRタスクで一貫した利得を生み、試験範囲内で飽和は観測されなかった。
DocVQA 90.0 および ChartQA 81.0 は評価ベンチマークで強力なOCRおよびチャート読取能力を示し、いくつかのベースラインを上回る。
InfographicVQA は 68.6% に到達し、最近のオープンソースのドキュメントレベルモデルを大きく上回る。OCRBench は 67.5% を達成。
モデルは 4KHD 入力（3840x1600）をサポートし、学習時より高い解像度で推論した場合にも堅牢な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。