QUICK REVIEW

[논문 리뷰] LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Feng Li, Renrui Zhang|arXiv (Cornell University)|2024. 07. 10.

Simulation and Modeling Applications인용 수 21

한 줄 요약

LLaVA-NeXT-Interleave는 다중 이미지, 비디오, 3D, 단일 이미지 작업을 인터리브 데이터 포맷으로 통합하고 M4-Instruct로 학습하며 새로운 LLaVA-Interleave Bench에서 평가하여 M4 시나리오 전반에서 최신 성능을 달성하는 동시에 단일 이미지 성능을 유지합니다.

ABSTRACT

Visual instruction tuning has made considerable strides in enhancing the capabilities of Large Multimodal Models (LMMs). However, existing open LMMs largely focus on single-image tasks, their applications to multi-image scenarios remains less explored. Additionally, prior LMM research separately tackles different scenarios, leaving it impossible to generalize cross scenarios with new emerging capabilities. To this end, we introduce LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame (video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To enable these capabilities, we regard the interleaved data format as a general template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4 primary domains with 14 tasks and 41 datasets. We also curate the LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading results in multi-image, video, and 3D benchmarks, while maintaining the performance of single-image tasks. Besides, our model also exhibits several emerging capabilities, e.g., transferring tasks across different settings and modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXT

연구 동기 및 목표

단일 LMM이 다중 이미지, 비디오, 3D 및 단일 이미지 작업(M4)을 처리하도록 동기화하고 가능하게 한다.
다양한 작업을 하나의 프레임워크 아래 통합하기 위한 인터리브 이미지-텍스트 데이터 템플릿을 제안한다.
도메인 간 학습 및 평가를 위해 M4-Instruct 데이터세트와 LLaVA-Interleave Bench를 생성·큐레이션한다.

제안 방법

비전 인코더, 중간 프로젝터, LLM 코어를 갖춘 LLaVA-NeXT-Image 아키텍처를 채택한다.
세 가지 학습 기법을 도입한다: (1) 강력한 단일 이미지 모델에서의 연속 학습, (2) 혼합 인터리브 데이터 포맷(앞에 위치 vs 인터리브), (3) 네 가지 데이터 시나리오(다중 이미지, 다중 프레임, 다중 시야, 다중 패치)에 대한 공동 학습.
M4-인스트럭트(M4-Instruct)를 1,177.6K 샘플에 걸쳐 14개 작업과 M4 도메인 across 41 데이터세트를 포함하도록 구성; 새로운 작업은 GPT-4V로 주석을 달음.
LLaVA-Interleave Bench를 13개 작업과 17K 인스턴스로 구성하고 도메인 내 평가와 도메인 외 평가로 분할한다.
다중 이미지, 비디오, 그리고 3D 벤치마크에 걸쳐 평가하고 단일 이미지 성능도 유지한다.

실험 결과

연구 질문

RQ1인터리브 다중 이미지 데이터로 학습한 단일 LMM이 다중 이미지 작업에서 경쟁력 있는 성능을 보이고 비디오 및 3D 시나리오로 일반화할 수 있는가?
RQ2인터리브 데이터 포맷이 모달리티 간 교차 작업 전이 및 신 emergent 능력을 가능하게 하는가?
RQ3강력한 단일 이미지 체크포인트에서 초기화하는 것이 다중 이미지 파인튜닝 성능에 어떤 영향을 미치는가?
RQ4입력 토큰 배치(앞에 위치 vs 인터리브) 및 혼합 포맷 학습이 로버스트니스와 작업 성능에 어떤 영향을 주는가?

주요 결과

모델	도메인 내 평균	도메인 외 평균	IE	VST	TRVQA	MIVQA	퍼즐	QB	NLVR2	도메인 내 평균	수학	과학	Mantis	BLINK	MMMU-mv	비고
GPT-4V	39.2	12.5	11.0	10.9	54.5	52.0	17.1	76.5	88.8	57.8	60.3	66.9	62.7	51.1	47.9	—
LLaVA-NeXT-Image (7B)	32.4	12.9	13.2	10.1	59.6	39.4	9.0	51.0	68.0	29.4	13.5	12.2	46.1	41.8	33.5	—
VPG-C (7B)	35.8	27.8	15.2	21.5	38.9	46.8	2.4	57.6	73.2	34.5	24.3	23.1	52.4	43.1	29.4	—
Mantis (7B)	39.6	17.6	11.2	12.5	45.2	52.5	25.7	69.9	87.4	39.3	27.2	29.3	59.5	46.4	34.1	—
LLaVA-NeXT-Interleave (0.5B)	43.9	34.3	21.6	29.7	63.9	54.8	35.4	52.0	67.8	33.1	13.3	12.2	45.6	39.2	28.6	—
LLaVA-NeXT-Interleave (7B)	58.6	37.1	24.3	33.1	76.1	87.5	48.7	74.2	88.8	42.8	32.8	31.6	62.7	52.6	34.5	—
LLaVA-NeXT-Interleave (14B)	62.3	40.5	24.5	33.3	78.6	95.0	59.9	76.7	91.1	44.3	33.4	32.7	66.4	52.1	37.1	—
Notes (examples)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—

LLaVA-NeXT-Interleave는 크기에 관계없이 다중 이미지 벤치마크에서 최상위 성능을 달성하며 단일 이미지 성능을 유지한다(0.5B, 7B, 14B).
인터리브 데이터 템플릿과 공동 M4-Instruct 학습은 단일 이미지에서 다중 이미지 추론으로의 전이 및 이미지에서 비디오로의 작업 전이와 같은 교차 작업 전이를 가능하게 한다.
혼합 형식을 통한 비디오 및 다중 이미지 데이터의 추가는 전반적인 지표와 로버스트니스를 개선한다.
모델은 서로 다른 설정 및 모달리티 간 작업 전이와 같은 신 emergent 능력을 보여준다(예: 차이점 찾기에서 비디오로, 비디오에서 트위터 게시물 생성으로).
LLaVA-Interleave Bench는 도메인 내외 작업으로 평가 범위를 제공하며 보이지 않는 다중 이미지 시나리오에 대한 일반화를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.