Skip to main content
QUICK REVIEW

[논문 리뷰] LLaVA-OneVision: Easy Visual Task Transfer

Bo Li, Yuanhan Zhang|arXiv (Cornell University)|2024. 08. 06.
Gaze Tracking and Assistive Technology인용 수 26
한 줄 요약

LLaVA-OneVision은 단일 오픈 대형 멀티모달 모델을 훈련시켜 단일 이미지, 다중 이미지, 비디오 작업에서 탁월하고 이미지에서 비디오로의 전이 포함한 교차 시나리오 이전능력을 보여준다.

ABSTRACT

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

연구 동기 및 목표

  • 다양한 비전 작업에서 잘 수행하는 개방형 일반용 시각 보조 도구를 구축하려는 목표.
  • 하나의 모델이 세 가지 주요 비전 설정(단일 이미지, 다중 이미지, 비디오)에서 개방형 LMM 성능을 끌어올릴 수 있음을 시연.
  • 교차 시나리오 학습 및 데이터 표현에서 발생하는 태스크 전이 및 신 emergent 능력을 탐구.
  • 오픈 소스 데이터, 코드 및 모델 체크포인트를 공개하여 커뮤니티 개발을 촉진.

제안 방법

  • Qwen-2를 LLM으로, SigLIP를 비전 인코더로 사용하고 2-층 MLP 프로젝터를 결합한 미니멀한 LLM-비전 인코더 아키텍처를 사용한다.
  • 해상도와 토큰 수의 균형을 맞춘 제어된 비주얼 표현 전략(AnyRes)을 통해 시각 입력을 시퀀스 형태의 비주얼 토큰으로 표현한다.
  • 3단계 커리큘럼으로 학습: Stage-1 언어-이미지 정렬, Stage-1.5 고품질 지식 학습, Stage-2 비주얼 명령 학습 및 OneVision 훈련.
  • 고품질의 합성 데이터 중심 지식 학습 체계를 채택하고 재캡션된 상세 설명 데이터, 문서/ OCR 데이터, 중국어 데이터 등을 포함하며 광범위한 비주얼 명령 학습 데이터를 보완한다.
  • LMMs-Eval을 사용한 0샷 평가로 단일 이미지, 다중 이미지, 비디오 벤치마크에서 표준화된 비교를 수행한다.

실험 결과

연구 질문

  • RQ1단일 이미지, 다중 이미지, 비디오 비전 작업에서 하나의 오픈 모델이 최첨단 또는 근접 최첨단 성능을 달성할 수 있는가?
  • RQ2Unified 모델링 및 데이터 표현에서 교차 시나리오 태스크 전이가 얼마나 발생할 수 있는가(예: 이미지에서 영상으로)?
  • RQ3세 가지 시나리오 전반에 걸친 성능과 계산을 균형 있게 만드는 최적의 시각 표현(해상도 대 토큰 수)은 무엇인가?
  • RQ4커리큘럼 학습 전략이 오픈 LMM의 학습 효율성과 최종 능력에 어떤 영향을 미치는가?
  • RQ5다양한 벤치마크에서 오픈 LMM 성능에 미치는 고품질 합성 명령 데이터의 영향은 무엇인가?

주요 결과

능력벤치마크LLaVA OneVision-0.5BLLaVA OneVision-7BLLaVA OneVision-72BGPT-4V (V-Preview)GPT-4o
단일 이미지AI2D 과학 도해57.1 %81.4 %85.6 %78.2 %94.2 %
단일 이미지ChartQA 차트 이해61.4 %80.0 %83.7 %78.5 %85.7 %
단일 이미지DocVQA 문서 이해70.0 %87.5 %91.3 %88.4 %92.8 %
단일 이미지InfoVQA 인포그래픽 이해41.8 %68.8 %74.9 %--
단일 이미지MathVerse 전문 수학 추론17.9 %26.2 %39.1 %32.8 %50.2 %
단일 이미지MathVista 일반 수학 이해34.8 %63.2 %67.5 %49.9 %63.8 %
  • 72B 매개변수의 LLaVA-OneVision은 단일 이미지, 다중 이미지 및 비디오 벤치마크에서 강한 성능을 보이며 많은 작업에서 여러 상용 모델에 근접하거나 이를 능가한다.
  • 모델은 통합 표현 및 학습 전략을 통한 이미지에서 영상으로의 능력을 포함한 강한 교차 시나리오 전이를 보여준다.
  • LLM의 확장과 Higher AnyRes 비주얼 표현의 사용은 더 큰 토큰 예산과 해상도로 능력을 향상시킨다.
  • 다수 벤치마크에서 GPT-4V 및 GPT-4o와 비교할 때, LLaVA-OneVision-72B는 광범위한 작업에서 경쟁력 있는 결과를 보인다.
  • 가장 큰 모델(72B)이 종종 더 작은 변종을 능가하는 경향이 있어 제안된 레시피의 확장 가능한 이점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.