Skip to main content
QUICK REVIEW

[논문 리뷰] MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

Xiangxiang Chu, Limeng Qiao|arXiv (Cornell University)|2024. 02. 06.
Multimodal Machine Learning Applications인용 수 10
한 줄 요약

MobileVLM V2는 데이터를 확장하고 학습 전략을 다듬으며 경량 프로젝터를 도입하여 모바일 중심 비전-언어 모델을 더 빠르고 강하게 만듭니다. 더 큰 VLM들보다 짧은 지연으로 최첨단 정확도를 달성합니다.

ABSTRACT

We introduce MobileVLM V2, a family of significantly improved vision language models upon MobileVLM, which proves that a delicate orchestration of novel architectural design, an improved training scheme tailored for mobile VLMs, and rich high-quality dataset curation can substantially benefit VLMs' performance. Specifically, MobileVLM V2 1.7B achieves better or on-par performance on standard VLM benchmarks compared with much larger VLMs at the 3B scale. Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our models will be released at https://github.com/Meituan-AutoML/MobileVLM .

연구 동기 및 목표

  • 리소스 제약이 있는 디바이스(모바일/에지)에서 VLM을 실용화하는 것을 동기 부여합니다.
  • 소형 VLM과 대형 VLM 간의 격차를 좁히기 위한 데이터 확장과 학습 전략을 조사합니다.
  • 시각 특징과 언어 특징을 효율적으로 정렬하는 경량 프로젝션 메커니즘을 설계합니다.
  • 개방형 고품질 데이터와 엔드-투-엔드 학습이 소형 VLM 성능을 끌어올릴 수 있음을 보여줍니다.
  • 표준 벤치마크에서 정확도-지연 시간의 파레토 최적 트레이드오프를 보여줍니다.

제안 방법

  • CLIP ViT-L/14를 시각 인코더로 사용하고 입력 해상도는 336x336입니다.
  • Open하고 효율적인 추론을 위해 MobileLLaMA(1.4B/2.7B)를 언어 모델로 채택합니다.
  • 이미지 토큰을 풀링 및 위치 보강이 포함된 간단한 합성곱으로 축소하는 경량 다운샘플 프로젝터(LDPv2)를 도입합니다.
  • 두 단계로 학습합니다: 사전 학습(전체 프로젝터+LLM과 함께 이미지-텍스트 정렬)와 다태스크 학습(비전-언어 태스크).
  • ShareGPT4V-PT(1.2M 이미지-텍스트 쌍)에서 사전학습하고 2.4M 샘플의 다양한 VLM 데이터셋으로 다태스크 학습을 수행합니다.
  • 효율성과 데이터 활용을 위해 비전 인코더를 동결한 채 모든 프로젝터와 LLM 매개변수를 미세 조정합니다.
Figure 1 : Comparison of SOTA VLMs in terms of average performance across several standard benchmarks and speed (tested on an NVIDIA Jeston Orin with llama.cpp ). MobileVLM V2 achieves new state-of-the-art results with much faster inference speed.
Figure 1 : Comparison of SOTA VLMs in terms of average performance across several standard benchmarks and speed (tested on an NVIDIA Jeston Orin with llama.cpp ). MobileVLM V2 achieves new state-of-the-art results with much faster inference speed.

실험 결과

연구 질문

  • RQ1데이터 확장과 고품질 멀티모달 데이터셋이 소형 VLM의 성능을 향상시켜 대형 모델에 근접시키나요?
  • RQ2경량의 다운샘플 시각 프로젝션이 모바일 친화적 LLM에서 시각과 언어를 효과적으로 연결할 수 있나요?
  • RQ3고품질 데이터에 대해 소형 VLM이 어떤 학습 방식(사전 학습 대 다태스크 학습)을 가장 잘 활용하나요?
  • RQ4MobileVLM V2가 표준 벤치마크에서 정확도와 지연 시간 면에서 최신 VLM들과 어떻게 비교되나요?

주요 결과

  • MobileVLM V2 1.7B가 표준 벤치마크에서 훨씬 큰 VLM과 동등하거나 더 나은 성능을 달성합니다.
  • 3B MobileVLM V2 모델은 벤치마크에서 평균적으로 7B 이상 규모의 VLM보다 우수한 성능을 보입니다.
  • MobileVLM V2는 일부 기준에서 약 75% 빠른 추론 속도를 제공하면서도 더 높은 평균 정확도를 달성합니다.
  • 7B MobileVLM V2 모델은 데스크탑/모바일 유사 테스트 설정에서 정확도와 속도 면에서 여러 대형 VLM보다 우수합니다.
  • 경량 프로젝터를 갖춘 고효율적 엔드-투-엔드 학습 방식은 강력한 정확도-지연 시간 파레토 프런티어를 제공합니다.
Figure 2 : MobileVLM V2’s architecture. $\mathbf{X}_{v}$ and $\mathbf{X}_{q}$ indicate image and language instruction, respectively, and $\mathbf{Y}_{a}$ refers to the text response from the language model MobileLLaMA. The diagram in the lower right corner is a detailed description of LDPv2, i.e . ,
Figure 2 : MobileVLM V2’s architecture. $\mathbf{X}_{v}$ and $\mathbf{X}_{q}$ indicate image and language instruction, respectively, and $\mathbf{Y}_{a}$ refers to the text response from the language model MobileLLaMA. The diagram in the lower right corner is a detailed description of LDPv2, i.e . ,

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.