QUICK REVIEW

[논문 리뷰] TinyLLaVA: A Framework of Small-scale Large Multimodal Models

Baichuan Zhou, Ying Hu|arXiv (Cornell University)|2024. 02. 22.

Speech and dialogue systems인용 수 15

한 줄 요약

TinyLLaVA는 데이터 품질과 학습 레시피를 최적화하여 소규모 LMM이 더 큰 모델과 대등하게 작동하는 방식을 분석하고, 1.1–3.1B 파라미터 모델 계열이 aggregate 벤치마크에서 일부 7B급 대역을 능가함을 제시합니다.

ABSTRACT

We present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training data and training recipes. Our extensive experiments showed that better quality of data combined with better training recipes, smaller LMMs can consistently achieve on-par performances compared to bigger LMMs. Under our framework, we train a family of small-scale LMMs. Our best model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as baselines for future research in terms of data scaling, training setups and model selections. Our model weights and codes will be made public.

연구 동기 및 목표

비전 인코더 선택, 커넥터 설계, 언어 모델 규모, 데이터 품질이 단일 프레임워크에서 소형 LMM에 미치는 영향을 평가합니다.
소형 LMM이 더 큰 모델과 경쟁적이거나 우수한 성능을 달성하도록 하는 학습 레시피와 데이터 혼합물을 식별합니다.
제약된 자원 환경에서 소형 LMM의 설계 및 학습을 위한 baselines 및 실용적인 가이드를 제공합니다.

제안 방법

모듈형 TinyLLaVA 프레임워크를 비전 인코더, 소규모 LLM, 커넥터 모듈로 제시합니다.
특징 정렬을 위한 이미지-캡션 스타일 데이터를 이용한 사전 학습으로 특징 정렬을 수행하고, 이어서 다중 턴 이미지-텍스트 대화에 대한 지도 학습 미세조정을 수행합니다.
두 가지 학습 레시피: base(비전 인코더 고정; 커넥터와 LLM 학습)와 share(비전 인코더의 처음 12층 고정; 더 많은 파라미터를 미세조정)
LLM 백본(TinyLlama, StableLM-2, Phi-2), 비전 인코더(CLIP, SigLIP), 커넥터(MLP vs Resampler) 변화를 포함한 실험
VQA/GQA/SQA I/ TextVQA 및 포괄 벤치마크(POPE, MM-Vet, LLaVA-W, MME, MMBench)에서의 평가
TinyLLaVA 변종의 경쟁력 평가를 위해 SOTA LMM과의 비교를 수행합니다.

실험 결과

연구 질문

RQ1다양한 비전 인코더와 소형 LLM 백본이 TinyLLaVA 하의 다중모달 이해에 어떤 영향을 미치는가?
RQ2학습 데이터의 품질과 규모가 소형 LMM 성능에 어떤 영향을 주는가?
RQ3더 많은 파라미터를 미세조정하는 학습 레시피가 벤치마크 전반에서 소형 LMM에 도움이 되는가, 아니면 해를 주는가?
RQ4TinyLLaVA 변종이 7B+ 모델에 비해 훨씬 적은 파라미터로도 경쟁력 있는 성능을 달성할 수 있는가?

주요 결과

Method	LLM	Size	Res.	VQA v2	GQA	SQA I	VQA T	MM-Vet	POPE	LLaVA-W	MME	MMBench
I-9B	L-7B	9B	224	50.9	38.4	-	25.9	-	-	-	-	48.2
InstructBLIP	V-7B	8.2B	224	-	49.2	60.5	50.1	26.2	-	60.9	-	36
LLaVA-1.5	V-7B	7B	336	78.5*	62.0*	66.8	58.2	30.5	85.9	63.4	1510.7	64.3
Qwen-VL	Q-7B	7B	448	78.8*	59.3*	67.1	63.8	-	-	-	-	38.2
MoE-LLaVA	Phi2-2.7B	3.9B	336	77.6*	61.4*	68.5	51.4	34.3	86.3	94.1	-	65.5
MoE-LLaVA	Phi2-2.7B	3.9B	384	79.9*	62.6*	70.3	57.0	35.9	85.7	97.3	-	68.0
LLaVA-Phi	Phi2-2.7B	3.0B	336	71.4*	-	68.4	48.6	28.9	85.0	-	1335.1	59.8
MobileVLM	ML-2.7B	3.0B	336	-	59.0*	61.0	47.5	-	84.9	-	1288.9	59.6
TinyLLaVA-share-C-Phi	Phi2-2.7B	3.0B	336	77.7*	61.0*	70.1	53.5	31.7	86.3	67.1	1437.3	68.3
TinyLLaVA-share-Sig-Phi	Phi2-2.7B	3.1B	384	79.9*	62.0*	69.1	59.1	32.0	86.4	75.8	1464.9	66.9

더 작 은 LMM도 고품질 데이터와 효과적인 학습 레시피를 결합하면 더 큰 모델에 필적하거나 더 나은 성능을 얻을 수 있다.
SigLIP를 비전 인코더로 사용하면 CLIP에 비해 입력 해상도 증가와 더 많은 시각 토큰으로 인해 현저한 이득을 얻는다.
Phi-2는 소형 LLM 백본 중에서 일반적으로 강력한 성능을 제공하며 더 큰 파라미터 수의 이점을 활용한다.
share 학습 레시피는 더 크고 다양한 사전 학습 데이터와 함께 여러 변형에서 성능을 향상시키지만, 일부 백본에서는 환각(hallucination)을 증가시킬 수 있다.
TinyLLaVA-3.1B가 적절한 데이터/레시프로를 사용하면 LLaVA-1.5, Qwen-VL과 같은 기존 7B 모델보다 누적 지표에서 우수한 성능을 보인다.
작은 LLM을 가진 TinyLLaVA 변형은 더 큰 데이터를 맞추기 위해 사전 학습 중 더 많은 학습 가능 파라미터가 필요할 수 있는 반면, 더 큰 LLM은 더 많은 파라미터를 학습시킬 때 환각에 더 취약해질 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.