QUICK REVIEW

[논문 리뷰] LLaVA-OneVision: Easy Visual Task Transfer

Bo Li, Yuanhan Zhang|arXiv (Cornell University)|2024. 08. 06.

Gaze Tracking and Assistive Technology인용 수 26

한 줄 요약

LLaVA-OneVision은 단일 오픈 대형 멀티모달 모델을 훈련시켜 단일 이미지, 다중 이미지, 비디오 작업에서 탁월하고 이미지에서 비디오로의 전이 포함한 교차 시나리오 이전능력을 보여준다.

ABSTRACT

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

연구 동기 및 목표

다양한 비전 작업에서 잘 수행하는 개방형 일반용 시각 보조 도구를 구축하려는 목표.
하나의 모델이 세 가지 주요 비전 설정(단일 이미지, 다중 이미지, 비디오)에서 개방형 LMM 성능을 끌어올릴 수 있음을 시연.
교차 시나리오 학습 및 데이터 표현에서 발생하는 태스크 전이 및 신 emergent 능력을 탐구.
오픈 소스 데이터, 코드 및 모델 체크포인트를 공개하여 커뮤니티 개발을 촉진.

제안 방법

Qwen-2를 LLM으로, SigLIP를 비전 인코더로 사용하고 2-층 MLP 프로젝터를 결합한 미니멀한 LLM-비전 인코더 아키텍처를 사용한다.
해상도와 토큰 수의 균형을 맞춘 제어된 비주얼 표현 전략(AnyRes)을 통해 시각 입력을 시퀀스 형태의 비주얼 토큰으로 표현한다.
3단계 커리큘럼으로 학습: Stage-1 언어-이미지 정렬, Stage-1.5 고품질 지식 학습, Stage-2 비주얼 명령 학습 및 OneVision 훈련.
고품질의 합성 데이터 중심 지식 학습 체계를 채택하고 재캡션된 상세 설명 데이터, 문서/ OCR 데이터, 중국어 데이터 등을 포함하며 광범위한 비주얼 명령 학습 데이터를 보완한다.
LMMs-Eval을 사용한 0샷 평가로 단일 이미지, 다중 이미지, 비디오 벤치마크에서 표준화된 비교를 수행한다.

실험 결과

연구 질문

RQ1단일 이미지, 다중 이미지, 비디오 비전 작업에서 하나의 오픈 모델이 최첨단 또는 근접 최첨단 성능을 달성할 수 있는가?
RQ2Unified 모델링 및 데이터 표현에서 교차 시나리오 태스크 전이가 얼마나 발생할 수 있는가(예: 이미지에서 영상으로)?
RQ3세 가지 시나리오 전반에 걸친 성능과 계산을 균형 있게 만드는 최적의 시각 표현(해상도 대 토큰 수)은 무엇인가?
RQ4커리큘럼 학습 전략이 오픈 LMM의 학습 효율성과 최종 능력에 어떤 영향을 미치는가?
RQ5다양한 벤치마크에서 오픈 LMM 성능에 미치는 고품질 합성 명령 데이터의 영향은 무엇인가?

주요 결과

능력	벤치마크	LLaVA OneVision-0.5B	LLaVA OneVision-7B	LLaVA OneVision-72B	GPT-4V (V-Preview)	GPT-4o
단일 이미지	AI2D 과학 도해	57.1 %	81.4 %	85.6 %	78.2 %	94.2 %
단일 이미지	ChartQA 차트 이해	61.4 %	80.0 %	83.7 %	78.5 %	85.7 %
단일 이미지	DocVQA 문서 이해	70.0 %	87.5 %	91.3 %	88.4 %	92.8 %
단일 이미지	InfoVQA 인포그래픽 이해	41.8 %	68.8 %	74.9 %	-	-
단일 이미지	MathVerse 전문 수학 추론	17.9 %	26.2 %	39.1 %	32.8 %	50.2 %
단일 이미지	MathVista 일반 수학 이해	34.8 %	63.2 %	67.5 %	49.9 %	63.8 %

72B 매개변수의 LLaVA-OneVision은 단일 이미지, 다중 이미지 및 비디오 벤치마크에서 강한 성능을 보이며 많은 작업에서 여러 상용 모델에 근접하거나 이를 능가한다.
모델은 통합 표현 및 학습 전략을 통한 이미지에서 영상으로의 능력을 포함한 강한 교차 시나리오 전이를 보여준다.
LLM의 확장과 Higher AnyRes 비주얼 표현의 사용은 더 큰 토큰 예산과 해상도로 능력을 향상시킨다.
다수 벤치마크에서 GPT-4V 및 GPT-4o와 비교할 때, LLaVA-OneVision-72B는 광범위한 작업에서 경쟁력 있는 결과를 보인다.
가장 큰 모델(72B)이 종종 더 작은 변종을 능가하는 경향이 있어 제안된 레시피의 확장 가능한 이점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.