QUICK REVIEW

[논문 리뷰] InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Xiaoyi Dong, Pan Zhang|arXiv (Cornell University)|2024. 04. 09.

Multimodal Machine Learning Applications인용 수 7

한 줄 요약

InternLM-XComposer2-4KHD를 소개하는 대형 비전-언어 모델은 336에서 4K HD까지의 해상도를 처리하며, 동적 패치 구성과 글로벌-로컬 입력 설계를 사용하여 7B 매개변수로 경쟁력 있는 결과를 달성하고 여러 HD-OCR 벤치마크에서 일부 폐쇄형 API를 능가합니다.

ABSTRACT

The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

연구 동기 및 목표

4K HD 및 그 이상으로 LVLM 해상도 기능 확대를 목표로 하되 336에서 4K까지 다양한 입력에서 해상도를 지원한다.
가로세로 비율을 보존하고 고해상도 이해를 가능하게 하는 동적 패치 기반 이미지 분할 및 학습 전략을 개발한다.
목표된 사전 학습 및 미세 조정을 통해 고해상도 OCR 및 문서 이해를 개선한다.
폐쇄 소스 API 및 기존 오픈 소스 LVLM에 대해 광범위한 벤치마크에서 경쟁력 있는 성능을 보여준다.

제안 방법

비전 인코더(ViT-L/14)와 7B LLM(InternLM2-7B)을 Partial LoRA를 통해 효율적으로 정렬하는 방식으로 InternLM-XComposer2를 확장한다.
입력을 336px 패치 그리드로 크기 조정하고 패딩하는 Dynamic Image Partition을 도입하며, 해상도는 HD-25/HD-55 및 4KHD까지 조정 가능하고 이미지의 종횡비를 보존한다.
글로벌 뷰(336x336)와 지역 패치 기반 특징을 모두 처리하여 이를 통합 표현으로 병합하는 Global-Local 포맷을 구현한다.
각 패치 행의 끝에 학습 불확실성을 줄이고 2D 구조를 명확히 구분하기 위해 학습 가능한 줄 바꿈 토큰을 추가한다.
시맨틱, 세계지식 및 역량 데이터의 혼합을 사용하여 시각 토큰을 LLM과 정렬하는 시각 인코더 미세 조정 및 LLM 고정 상태에서의 사전 학습; LLDR 감소 및 단계적 학습률 등의 학습 전략과 저랭크 Partial LoRA 적용.
고해상도 작업에 대해 HD-55를 사용한 혼합 해상도 전략으로 파인튜닝하여 HD-OCR 및 일반 비전-언어 작업 전반에서 성능 최적화를 도모한다.

실험 결과

연구 질문

RQ1고해상도 OCR, 차트, 인포그래픽과 같은 고해상도 작업에서 학습 및 추론 해상도 증가가 성능에 어떤 영향을 미치는가?
RQ2자동 레이아웃으로 동적 패치 구성이 LVLM 능력을 336px에서 4K까지 확장하면서 종횡비를 보존할 수 있는가?
RQ3글로벌 뷰 대 로컬 패치, 그리고 줄 바꿈 토큰이 LVLM의 2D 이미지 이해에 어떤 영향을 미치는가?
RQ4IXC2-4KHD가 HD-OCR 작업을 포함한 광범위한 벤치마크에서 폐쇄형 API 및 오픈 소스 LVLM과 어떻게 비교되는가?

주요 결과

IXC2-4KHD는 7B 매개변수로 경쟁력 있는 결과를 달성하며 16개 벤치마크 중 10개에서 GPT-4V 및 Gemini Pro와 일치하거나 이를 능가한다.
오픈 소스 LVLM들 중 16개 벤치마크 중 6개에서 SOTA 결과를 달성하며 여러 작업에서 폐쇄형 API에 근접하다.
4K HD 해상도까지의 학습은 HD-OCR 작업에서 일관된 향상을 이끌며 테스트 범위 내에서 포화 현상이 관찰되지 않았다.
평가된 벤치마크에서 DocVQA 90.0 및 ChartQA 81.0은 OCR 및 차트 읽기 능력이 강함을 보여주며 여러 기준선을 능가한다.
InfographicVQA가 68.6%에 도달하여 최근 오픈 소스 문서 수준 모델을 크게 능가하고, OCRBench는 67.5%를 달성한다.
모델은 4KHD 입력(3840x1600)을 지원하며 학습 시 사용된 해상도보다 높은 해상도에서 추론할 때 강력한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.