Skip to main content
QUICK REVIEW

[논문 리뷰] TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Zhengqing Yuan, Zhaoxu Li|arXiv (Cornell University)|2023. 12. 28.
Multimodal Machine Learning Applications인용 수 7
한 줄 요약

TinyGPT-V는 Phi-2를 기반으로 한 매개변수 효율적인 다중모달 LLM으로, 2.8B 파라미터를 보유합니다. BLIP-2/CLIP 시각 모듈과 경량 학습 전략을 활용하여 24G GPU로 학습하고 8G 디바이스에서 추론하는 가운데 경쟁력 있는 비전-언어 태스크를 달성합니다.

ABSTRACT

In recent years, multimodal large language models (MLLMs) such as GPT-4V have demonstrated remarkable advancements, excelling in a variety of vision-language tasks. Despite their prowess, the closed-source nature and computational demands of such models limit their accessibility and applicability. This study introduces TinyGPT-V, a novel open-source MLLM, designed for efficient training and inference across various vision-language tasks, including image captioning (IC) and visual question answering (VQA). Leveraging a compact yet powerful architecture, TinyGPT-V integrates the Phi-2 language model with pre-trained vision encoders, utilizing a unique mapping module for visual and linguistic information fusion. With a training regimen optimized for small backbones and employing a diverse dataset amalgam, TinyGPT-V requires significantly lower computational resources 24GB for training and as little as 8GB for inference without compromising on performance. Our experiments demonstrate that TinyGPT-V, with its language model 2.8 billion parameters, achieves comparable results in VQA and image inference tasks to its larger counterparts while being uniquely suited for deployment on resource-constrained devices through innovative quantization techniques. This work not only paves the way for more accessible and efficient MLLMs but also underscores the potential of smaller, optimized models in bridging the gap between high performance and computational efficiency in real-world applications. Additionally, this paper introduces a new approach to multimodal large language models using smaller backbones. Our code and training weights are available in the supplementary material.

연구 동기 및 목표

  • 더 큰 모델에 비해 대등한 성능을 낼 수 있는 비용 효율적이고 효율적인 다중모달 LLM의 개발을 촉진합니다.
  • 사전 학습된 시각 모듈을 활용하는 Phi-2를 기반으로 한 소형 백본 MLLM으로 TinyGPT-V를 제안합니다.
  • 다중모달 태스크에서 소형 LLM의 학습을 안정화하는 학습 전략과 정규화 기법을 시연합니다.
  • 제약된 파라미터 수에도 불구하고 다양한 비전-언어 벤치마크에서 모델의 성능을 선보입니다.

제안 방법

  • 시각 인코더 프로젝션(Q-Former)을 2.8B Phi-2 언어 백본과 융합하는 아키텍처.
  • 고정된 시각 모듈(BLIP-2 또는 CLIP)을 사용하고 오직 프로젝션 레이어와 LoRA만 학습하여 효율성을 높입니다.
  • 학습 안정을 위해 LLaMA-2 post-norm/input-norm, MHA 후 RMS norm, 및 Query-Key Normalization을 도입합니다.
  • 워밍업, 프리트레이닝, 인스트럭션 파인튜닝, 멀티태스크 러닝의 네 단계 학습 파이프라인을 채택합니다.
  • 여섯 개의 태스크 식별자로 구성된 멀티태스크 인스트럭션 템플릿을 사용하여 다양한 비전-언어 태스크를 통합합니다.

실험 결과

연구 질문

  • RQ1사전 학습된 시각 모듈과 함께 2.8B LLM(Phi-2)가 결합되어 경쟁력 있는 MLLM 성능을 달성할 수 있을까요?
  • RQ2소형 백본에서 다중모달 학습의 안정화를 위해 필요한 학습 전략(노름/정규화, LoRA, 양자화)은 무엇인가요?
  • RQ3표준 VQA, grounding, and referencing 태스크에서 TinyGPT-V가 더 큰 오픈 소스 MLLMs에 비해 어떤 성능을 보이나요?

주요 결과

  • TinyGPT-V(2.8B 파라미터)는 13B+ 모델들에 비해 훨씬 작음에도 여러 시각-언어 벤치마크에서 경쟁력 있는 결과를 달성합니다.
  • VSR 제로샷에서 TinyGPT-V는 53.2%를 기록하며 보고된 2.8B–13B 베이스라인 중 최고치를 보였습니다.
  • IconVQ와 HM 태스크에서 각각 43.3%와 53.2%를 달성하여 더 큰 모델과 경쟁력을 보입니다.
  • 정규화(RMS Norm, QK Norm)와 LoRA를 포함한 단계별 학습은 그래디언트 소실을 방지하고 각 단계에서 낮은 손실을 달성하는 데 결정적입니다.
  • 효율적인 아키텍처와 양자화로 인해 TinyGPT-V는 단일 24G GPU에서 학습하고 8G 디바이스에 배포할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.