[논문 리뷰] Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
Qwen2-VL은 다양한 해상도의 이미지와 비디오를 다루기 위해 Naive Dynamic Resolution 및 Multimodal Rotary Position Embedding을 도입하여 LVLM을 최대 72B 파라미터까지 확장하고 비디오 이해 및 다국어 OCR를 포함한 강력한 멀티모달 벤치마크를 달성합니다.
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL .
연구 동기 및 목표
- Fixed-resolution 벤치목록의 한계를 깨뜨려 인간과 유사한 지각 스케일을 더 잘 모방하는 것을 목표로 한다.
- 다양한 해상도에서 입력을 처리할 수 있는 통합 이미지-비디오 멀티모달 프레임워크를 개발한다.
- 모델 크기(2B, 8B, 72B)와 학습 데이터 양을 탐구하여 LVLM의 스케일링 법칙을 조사한다.
- 모든 모달리티에서 텍스트, 이미지, 비디오 정보를 효과적으로 융합하는 포지셔널 인코딩을 향상시킨다.
- 단일 모델에서 다국어, OCR, 문서 이해, 비디오 이해 및 에이전트 능력을 시연한다.
제안 방법
- 이미지의 임의 해상도를 2D-RoPE를 사용하여 동적 시각 토큰의 수로 변환하는 Naive Dynamic Resolution을 도입한다.
- 절대 2D 포지션 임베딩을 2D RoPE로 대체하여 공간 정보를 포착한다.
- 회전 임베딩을 시간축, 높이, 폭 구성 요소로 분해하는 Multimodal RoPE(M-RoPE)를 제안하여 다중모달 융합을 수행한다.
- 긴 비디오를 다루면서도 토큰 한도를 유지하기 위해 3D 합성곱과 프레임 샘플링이 포함된 단일 이미지-비디오 훈련 방식으로 운영한다.
- 다양한 멀티모달 데이터셋을 바탕으로 3단계 훈련 파이프라인(ViT 사전훈련, 전체 모델 해제, LLM 지시 조정)을 채택한다.
- 2B, 7B, 72B LLM에 걸쳐 675M 비전 트랜스포머 백본으로 통합된 Qwen2-VL 아키텍처를 운영한다.
실험 결과
연구 질문
- RQ1동적 해상도가 해상도 간 시각 토큰 효율성과 모델 지각에 어떤 영향을 미치는가?
- RQ2M-RoPE와 2D-RoPE가 텍스트, 이미지, 비디오 간의 교차 모달 융합을 개선할 수 있는가?
- RQ3모델 크기와 데이터가 증가할 때 다중모달 벤치마크에서의 정확도 측면에서 LVLM의 스케일링 효과는 무엇인가?
- RQ4통합 이미지-비디오 프레임워크가 OCR, 문서 이해, 비디오 이해 과제에서 최첨단 성능에 도달할 수 있는가?
- RQ5공개 및 내부 벤치마크에서 다국어 및 OCR 능력이 기존 LVLM과 비교해 어떤 차이가 있는가?
주요 결과
- Qwen2-VL-72B는 멀티모달 벤치마크에서 GPT-4o 및 Claude3.5-Sonnet와 같은 선도 모델과 경쟁력 있는 결과를 달성한다.
- Qwen2-VL은 DocVQA, InfoVQA, TextVQA 및 OCRBench에서 최첨단 성능을 달성한다.
- 모델은 다국어 OCR 및 비디오 이해 능력이 강하게 입증되어 MTVQA 및 내부 벤치마크에서 많은 일반 LVLM보다 우수한 성과를 보인다.
- 문서 및 다이어그램 읽기 작업에서 OCR 관련 지표의 현저한 향상 사례가 나타난다.
- 비디오 이해 벤치마크에서 72B 모델이 여러 과제에서 최상위 성능을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.