[논문 리뷰] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
InternVL 1.5는 오픈 소스 멀티모달 대형 언어 모델로서 비전 인코딩을 강화하고, 고해상도 입력을 가능하게 하며, 양방향 데이터를 확장해 GPT-4V와 같은 상용 모델과의 격차를 줄이고, 여러 벤치마크에서 최첨단 성능을 달성합니다.
In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model -- InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$ imes$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.
연구 동기 및 목표
- 멀티모달 이해에서 오픈 소스와 독점형 멀티모달 모델 간의 역량 격차를 줄인다.
- InternViT-6B의 지속적 학습을 통해 더 강력한 비전 인코더로 시각 특징 추출을 향상시킨다.
- 효율성을 유지하면서 4K까지 타일 기반의 고해상도 이미지 처리를 가능하게 한다.
- 고품질 이중언어 데이터세트와 번역 파이프라인을 통해 영어-중국어 이중언어 멀티모달 성능을 향상시킨다.
제안 방법
- 강력한 비전 인코더(InternViT-6B)를 MLP 프로젝터를 통해 LLM(InternLM2-20B)과 통합하여 ViT-MLP-LLM 아키텍처를 채택한다.
- 이미지를 448x448 패치로 타일링하여(during training 1–12 타일; testing 시 최대 40타일) 4K 해상도에 도달하도록 동적 고해상도 입력을 구현한다.
- OCR 및 기타 멀티모달 작업에 대한 영어와 중국어 주석을 포함하는 다양하고 고품질의 이중언어 데이터셋으로 사전 학습한다.
- 멀티언어 역량 강화를 위해 영어 데이터셋을 중국어(및 잠재적으로 다른 언어)로 변환하는 데이터 번역 파이프라인을 사용한다.
- 초기 시각 및 투영 학습 후 전체 모델(26B 매개변수)을 미세 조정하여 멀티모달 성능을 최적화한다.
실험 결과
연구 질문
- RQ1오픈 소스 MLLM이 OCR, 일반 멀티모달, 수학, 다회 대화 벤치마크에서 선도적 상용 모델의 성능에 얼마나 근접할 수 있는가?
- RQ2비전 인코더 강도, 고해상도 동적 입력, 이중언어 데이터 품질의 어떤 조합이 멀티모달 이해와 이중언어 역량에서 가장 큰 향상을 이끌어내는가?
- RQ3이러한 개선을 가진 오픈 소스 모델이 문서 및 OCR 중심 작업에서 경쟁자를 능가하면서도 강력한 다국어 성능을 유지할 수 있는가?
주요 결과
- InternVL 1.5는 18개의 멀티모달 벤치마크에서 오픈 소스 및 독점 모델과 경쟁력 있는 성능을 달성한다.
- 모델은 OCR 관련 작업인 ChartQA 및 OCRBench를 포함해 18개 벤치마크 중 8개에서 최첨단 결과를 달성한다.
- OCR 및 문서 중심 작업에서 InternVL 1.5는 여러 데이터셋에서 선두 상용 모델을 능가할 수 있으며 강한 중국어 능력을 보인다.
- 동적 고해상도 처리로 거의 4K 입력 처리가 가능하며 연산 부담 없이, 낮은 타일 수에서도 견고한 성능을 유지한다.
- 비전 인코더(InternViT-6B)의 지속적 학습은 시각 표현을 실제로 훨씬 더 큰 LLM과 유사한 수준으로 향상시킨다.
- 수학 추론 과제에서 InternVL 1.5는 MathVista 관련 벤치마크에서 GPT-4V를 포함한 여러 경쟁자를 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.