Skip to main content
QUICK REVIEW

[논문 리뷰] MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

Xiangxiang Chu, Limeng Qiao|arXiv (Cornell University)|2023. 12. 28.
Multimodal Machine Learning Applications인용 수 11
한 줄 요약

MobileVLM은 경량 다운샘플 프로젝터와 MobileLLaMA를 활용한 오픈형의 모바일 친화적 비전-언어 모델(1.4B 및 2.7B)을 도입하여 모바일 CPU와 GPU에서 최첨단 추론 속도와 경쟁력 있는 VLM 성능을 달성합니다.

ABSTRACT

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.

연구 동기 및 목표

  • 처음부터 학습된 열려 있고 재현 가능한 모바일 규모의 비전-언어 모델을 개발한다
  • 아키텍처 선택을 평가하고 모바일 효율성을 위해 시각 인코더, 입력 해상도 및 모델 크기를 절감하며 분석한다
  • 추론 비용을 줄이면서 시각 공간과 텍스트 공간을 정렬하는 효율적인 프로젝터를 설계한다
  • 모바일 CPU 및 독립 GPU에서의 실시간 온-device 추론 속도를 demonstrate한다
  • 제한된 학습 데이터에도 불구하고 표준 VLM 벤치마크에서 경쟁력 있는 성능을 보여준다

제안 방법

  • CLIP-style ViT-L/14 시각 인코더(336×336)를 비전 백본으로 사용한다
  • Lightweight Downsample Projector(LDP)로 시각 특징을 다운샘플링 및 정렬하여 멀티모달 토큰을 생성한다
  • MobileLLaMA—엣지에 맞춘 1.4B 및 2.7B LLM을 처음부터 학습하고 감독 미세 조정으로 튜닝한다
  • RedPajama v1 텍스트 말뭉치로 LLM을 사전 학습한 뒤 다-turn 대화 데이터(Vicuna-style)로 미세 조정한다
  • 비전 인코더와 LLM의 동결 상태에서 프로젝터를 학습시키고, 그 후 프로젝터와 LLM을 함께 미세 조정하는 2단계 방식으로 비전-언어 모델을 훈련한다
  • 스냅드래곤 888 및 NVIDIA Jetson Orin에서 추론 지연을 평가하고 tokens-per-second와 엔드투엔드 처리량을 보고한다

실험 결과

연구 질문

  • RQ1오픈형의 모바일 규모 비전-언어 모델이 significantly fewer parameters와 학습 데이터로도 경쟁력 있는 성능을 달성할 수 있는가?
  • RQ2경량 프로젝터가 모바일 추론을 위해 시각 및 언어 표현을 효과적으로 정렬할 수 있는가?
  • RQ3일반적인 엣지 하드웨어에서 MobileVLM의 온-device 대기 시간과 처리량은 어떠한가?
  • RQ4모바일 제약 조건하에서 MobileVLM이 표준 벤치마크에서 더 큰 오픈 소스 VLM들과 비교해 어떻게 수행하는가?

주요 결과

  • MobileVLM은 더 작은 크기와 더 적은 학습 데이터에도 불구하고 표준 VLM 벤치마크에서 경쟁력 있는 결과를 달성한다
  • Lightweight Downsample Projector가 시각 토큰 수를 약 75% 감소시키고 추론 속도를 높인다
  • MobileLLaMA 모델(1.4B 및 2.7B)은 강한 언어 능력과 모바일 CPU 및 GPU에서의 우호적인 속도를 보인다
  • 온-device 속도는 Snapdragon 888 CPU에서 21.5 토큰/초, NVIDIA Jetson Orin GPU에서 65.3 토큰/초에 도달한다
  • LoRA-절단 미세 조정은 전체 미세 조정에 비해 훨씬 적은 학습 가능 매개변수로도 유사한 성능을 보인다
  • MobileVLM은 엣지 친화적 배치와 함께 여러 벤치마크(GQA, POPE, MMBench)에서 더 큰 오픈 소스 VLM들에 비해 동등하거나 우수한 성능을 보인다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.