[논문 리뷰] LLaVA-OneVision: Easy Visual Task Transfer
LLaVA-OneVision은 단일 오픈 대형 멀티모달 모델을 훈련시켜 단일 이미지, 다중 이미지, 비디오 작업에서 탁월하고 이미지에서 비디오로의 전이 포함한 교차 시나리오 이전능력을 보여준다.
We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.
연구 동기 및 목표
- 다양한 비전 작업에서 잘 수행하는 개방형 일반용 시각 보조 도구를 구축하려는 목표.
- 하나의 모델이 세 가지 주요 비전 설정(단일 이미지, 다중 이미지, 비디오)에서 개방형 LMM 성능을 끌어올릴 수 있음을 시연.
- 교차 시나리오 학습 및 데이터 표현에서 발생하는 태스크 전이 및 신 emergent 능력을 탐구.
- 오픈 소스 데이터, 코드 및 모델 체크포인트를 공개하여 커뮤니티 개발을 촉진.
제안 방법
- Qwen-2를 LLM으로, SigLIP를 비전 인코더로 사용하고 2-층 MLP 프로젝터를 결합한 미니멀한 LLM-비전 인코더 아키텍처를 사용한다.
- 해상도와 토큰 수의 균형을 맞춘 제어된 비주얼 표현 전략(AnyRes)을 통해 시각 입력을 시퀀스 형태의 비주얼 토큰으로 표현한다.
- 3단계 커리큘럼으로 학습: Stage-1 언어-이미지 정렬, Stage-1.5 고품질 지식 학습, Stage-2 비주얼 명령 학습 및 OneVision 훈련.
- 고품질의 합성 데이터 중심 지식 학습 체계를 채택하고 재캡션된 상세 설명 데이터, 문서/ OCR 데이터, 중국어 데이터 등을 포함하며 광범위한 비주얼 명령 학습 데이터를 보완한다.
- LMMs-Eval을 사용한 0샷 평가로 단일 이미지, 다중 이미지, 비디오 벤치마크에서 표준화된 비교를 수행한다.
실험 결과
연구 질문
- RQ1단일 이미지, 다중 이미지, 비디오 비전 작업에서 하나의 오픈 모델이 최첨단 또는 근접 최첨단 성능을 달성할 수 있는가?
- RQ2Unified 모델링 및 데이터 표현에서 교차 시나리오 태스크 전이가 얼마나 발생할 수 있는가(예: 이미지에서 영상으로)?
- RQ3세 가지 시나리오 전반에 걸친 성능과 계산을 균형 있게 만드는 최적의 시각 표현(해상도 대 토큰 수)은 무엇인가?
- RQ4커리큘럼 학습 전략이 오픈 LMM의 학습 효율성과 최종 능력에 어떤 영향을 미치는가?
- RQ5다양한 벤치마크에서 오픈 LMM 성능에 미치는 고품질 합성 명령 데이터의 영향은 무엇인가?
주요 결과
| 능력 | 벤치마크 | LLaVA OneVision-0.5B | LLaVA OneVision-7B | LLaVA OneVision-72B | GPT-4V (V-Preview) | GPT-4o |
|---|---|---|---|---|---|---|
| 단일 이미지 | AI2D 과학 도해 | 57.1 % | 81.4 % | 85.6 % | 78.2 % | 94.2 % |
| 단일 이미지 | ChartQA 차트 이해 | 61.4 % | 80.0 % | 83.7 % | 78.5 % | 85.7 % |
| 단일 이미지 | DocVQA 문서 이해 | 70.0 % | 87.5 % | 91.3 % | 88.4 % | 92.8 % |
| 단일 이미지 | InfoVQA 인포그래픽 이해 | 41.8 % | 68.8 % | 74.9 % | - | - |
| 단일 이미지 | MathVerse 전문 수학 추론 | 17.9 % | 26.2 % | 39.1 % | 32.8 % | 50.2 % |
| 단일 이미지 | MathVista 일반 수학 이해 | 34.8 % | 63.2 % | 67.5 % | 49.9 % | 63.8 % |
- 72B 매개변수의 LLaVA-OneVision은 단일 이미지, 다중 이미지 및 비디오 벤치마크에서 강한 성능을 보이며 많은 작업에서 여러 상용 모델에 근접하거나 이를 능가한다.
- 모델은 통합 표현 및 학습 전략을 통한 이미지에서 영상으로의 능력을 포함한 강한 교차 시나리오 전이를 보여준다.
- LLM의 확장과 Higher AnyRes 비주얼 표현의 사용은 더 큰 토큰 예산과 해상도로 능력을 향상시킨다.
- 다수 벤치마크에서 GPT-4V 및 GPT-4o와 비교할 때, LLaVA-OneVision-72B는 광범위한 작업에서 경쟁력 있는 결과를 보인다.
- 가장 큰 모델(72B)이 종종 더 작은 변종을 능가하는 경향이 있어 제안된 레시피의 확장 가능한 이점을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.