QUICK REVIEW

[논문 리뷰] When LLaVA Meets Objects: Token Composition for Vision-Language-Models

Soumya Jahagirdar, Walid Bousselham|arXiv (Cornell University)|2026. 02. 04.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

Mask-LLaVA는 retraining 없이 테스트 시 토큰 축소를 가능하게 하는 세 가지 해상도(CLS, 풀링된 패치, 마스크 기반 객체 토큰) 접근법을 도입하여 여덟 가지 VLM 벤치마크에서 비교적 적은 시각 토큰으로 경쟁력 있는 성능을 달성합니다.

ABSTRACT

Current autoregressive Vision Language Models (VLMs) usually rely on a large number of visual tokens to represent images, resulting in a need for more compute especially at inference time. To address this problem, we propose Mask-LLaVA, a framework that leverages different levels of visual features to create a compact yet information-rich visual representation for autoregressive VLMs. Namely, we combine mask-based object representations together with global tokens and local patch tokens. While all tokens are used during training, it shows that the resulting model can flexibly drop especially the number of mask-based object-tokens at test time, allowing to adapt the number of tokens during inference without the need to retrain the model and without a significant drop in performance. We evaluate the proposed approach on a suite of standard benchmarks showing results competitive to current token efficient methods and comparable to the original LLaVA baseline using only a fraction of visual tokens. Our analysis demonstrates that combining multi-level features enables efficient learning with fewer tokens while allowing dynamic token selection at test time for good performance.

연구 동기 및 목표

자동회귀 비전-언어 모델에서 재학습 없이 시각 토큰 수를 줄이는 것을 동기화한다.
전 global, local 및 객체 수준의 시각 특징을 LLM에 대해 компакт하게 융합하는 Mask-LLaVA를 제안한다.
정규화 스케일링 및 테스트 시 토큰 가지치기가 벤치마크 전반에 걸쳐 견고한 성능을 보여준다는 것을 입증한다.
훈련 중 객체 기반 토큰의 과샘플링은 테스트 시의 유연한 토큰 가지치기를 증가시킨다.

제안 방법

사전 학습된 비전 인코더를 사용해 세 가지 토큰 유형을 추출한다: CLS(전역), 풀링된 패치(로컬), 그리고 마스크 기반 객체 토큰.
객체성 탐지기(경계 상자)와 SAM 세분화를 통해 객체 마스크를 생성하고, MaskInversion으로 객체 임베딩을 얻는다.
CLS 및 객체 토큰이 패치 토큰과 정규화되도록 토큰 노름을 조정한다(패치 토큰의 평균 및 표준편차로 스케일링).
세 개의 토큰 스트림을 다중 모달 프로젝터를 통해 융합한 후 LLM에 입력하며, 시각-언어 사전학습 후 지시어 미세조정(LLaVA 학습 파이프라인)을 따른다.
재학습 없이 IoU 기반 마스크 가지치기 및 선택적 패치 토큰 가지치기/풀링을 통해 테스트 시 동적 토큰 축소를 지원한다.

Figure 1: Overview of Mask-LLaVA Architecture. Given an input image, the local feature extraction module pools patch tokens from the Vision Transformer ViT Radford et al. ( 2021 ) based on 2D grid structure to obtain local context features. Simultaneously, the SAM Kirillov et al. ( 2023 ) generates

실험 결과

연구 질문

RQ1다중 해상도 시각 토큰(전역 CLS, 로컬 패치, 객체 마스크)을 결합하면 토큰 수를 줄이면서도 VLM 성능을 유지할 수 있는가?
RQ2토큰 유형 간의 정규화 스케일링이 토큰 간 융합 및 전반적인 성능 향상에 도움이 되는가?
RQ3테스트 시 토큰 수가 줄어들 때 Mask-LLaVA가 표준 VLM 벤치마크에서 어떠한 성능을 보이는가?
RQ4훈련 중 객체 기반 표현의 과샘플링이 추론 시 유연한 토큰 가지치기에 도움이 되나?

주요 결과

방법	RR	# 시각 토큰	VQAv2	GQA	POPE	MME	MMBench	SciQA	Vizwiz	MM-Vet
LLaVA-1.5-7B	0%	576	78.5	62.0	85.9	1510.7	64.3	66.8	50.0	30.5
LLaVA-1.5-7B†	90%	58	-	54.2	74.6	1246.8	53.4	67.1	-	27.0
FitPrune	90%	58	62.7	49.9	53.8	1147.4	56.2	68.2	50.8	21.8
SparseVLM	90%	58	62.9	48.8	65.8	1030.6	49.0	67.2	49.3	18.6
FasterVLM	90%	58	71.9	54.9	75.8	1348.6	60.5	68.9	53.0	30.1
MQT	90%	64	75.3	60.0	83.6	1464.3	63.5	67.0	51.5	28.9
Voco-LLaMa	88%	64	75.4	60.4	-	60.5	-	-	-	-
Mask-LLaVA (ours)	90%	57	74.8	60.6	83.7	1415.0	63.1	68.8	51.8	24.9
LLaVA-1.5-7B†	95%	29	-	51.0	65.9	1141.1	45.7	67.1	-	23.5
FitPrune	95%	29	52.3	43.6	31.1	855.2	39.6	68.3	48.6	18.0
FasterVLM	95%	29	66.7	51.5	67.2	1254.8	58.5	69.5	52.6	27.5
MQT	95%	36	73.7	58.8	81.9	1416.3	63.4	66.8	51.0	27.8
M3	95%	36	76.9	60.3	85.5	1417.2	64.8	68.2	52.8	25.4
Voco-LLaMa	95%	32	75.3	60.2	-	59.4	-	-	-	-
Mask-LLaVA (ours)	95%	15	71.5	58.5	82.1	1395.8	62.1	68.4	52.8	21.9

Mask-LLaVA는 여덟 벤치마크에서 시각 토큰의 일부만으로도 경쟁력 있는 성능을 달성하며, 높은 토큰 축소 비율에서도 다른 토큰 효율화 방법을 능가하는 경우가 많다.
57-토큰 구성이(1 CLS + 36 패치 + 20 객체 토큰) 및 42-토큰/29-토큰 구성에서도 강한 결과를 유지하며 토큰 축소에 대해 견고함을 보여준다.
CLS, 패치, 객체 토큰을 통합하면 패치 토큰만 사용하는 것보다 더 나은 결과를 낳으며, 일부 태스크에서 CLS가 가치를 제공하고 객체 토큰이 다른 태스크를 돕는다.
CLS 및 객체 토큰의 패치 토큰 통계로의 정규화가 전체 성능을 향상시키며, 이미지 단위 토큰 정규화가 최상의 결과를 낳는다.
마스크 기반 토큰 가지치기(IoU 기반)와 패치 토큰 가지치기/풀링은 재학습 없이 추론 시 토큰 수를 동적으로 조정 가능하게 한다.
여러 데이터셋에서(특히 POPE와 MME) 고토큰 축소 하에서 Mask-LLaVA가 최첨단 수준의 이득을 얻는 반면, VQAv2, GQA, VizWiz, MM-Vet 등에서도 경쟁력 있는 결과를 유지한다.

Figure 2: Mask-Token Computation. This figure illustrates the process of obtaining segmentation masks. First, an objectness detector Zhu et al. ( 2020 ) identifies bounding boxes in the image. These bounding boxes, along with the image, are then passed to the SAM Kirillov et al. ( 2023 ) model to ge

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.