Skip to main content
QUICK REVIEW

[논문 리뷰] Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

Han Zhao, M. Zhang|arXiv (Cornell University)|2024. 03. 21.
Natural Language Processing Techniques인용 수 6
한 줄 요약

Cobra는 linear-time Mamba 상태공간 모델과 비전 인코더를 통합하여 멀티모달 LLM을 구축하고, Transformer 기반 베이스라인 대비 3–4x 더 빠른 추론 속도를 달성하며 더 큰 모델의 약 43% 파라미터를 사용하면서도 경쟁력 있는 정확도를 제공합니다.

ABSTRACT

In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.

연구 동기 및 목표

  • Transformer-based MLLMs의 제곱 복잡도로 인한 효율성 한계 동기부여.
  • 멜티모달 처리를 위한 선형 시간 상태공간 모델(Mamba)을 사용하는 Cobra 아키텍처 제안.
  • 모달 융합 스키마를 조사해 시각 정보와 언어 정보를 효과적으로 통합.
  • 표준 VLM 벤치마크에서 Cobra의 경쟁력 있는 성능 및 뛰어난 속도 시연.
  • 성능을 유지하면서 파라미터 수의 잠재적 감소를 보여줌.

제안 방법

  • 이미지에서 시각 표현을 추출하기 위해 비전 인코더 스택(DINOv2 + SigLIP) 사용.
  • 시각 토큰을 Mamba 토큰 공간에 맞추기 위한 프로젝터 모듈 도입(MLP 또는 대안).
  • 64개 블록으로 구성된 백본으로 Mamba를 채택해 시각 및 텍스트 임베딩을 자동회귀적으로 연결 처리.
  • 몰입 모달 표현을 최적화하기 위해 다양한 융합 스키마를 탐색하며 Mamba 내 시각 및 언어 모듈을 융합.
  • ~1.2M 이미지-텍스트 샘플을 두 에폭에 걸쳐 전체 LLM 백본과 프로젝터를 미세조정하며 엔드투엔드 학습.
Figure 1 : Illustration of tokens per second and times in our proposed Cobra and baselines.
Figure 1 : Illustration of tokens per second and times in our proposed Cobra and baselines.

실험 결과

연구 질문

  • RQ1선형 시간 상태공간 모델(Mamba)이 시각 인코더와 함께 사용할 때 멀티모달 대형 언어 모델링을 효과적으로 지원할 수 있는가?
  • RQ2Cobra 내에서 어떤 비전 인코더와 프로젝션 전략이 시각 정보를 가장 잘 보존하여 정확한 멀티모달 추론에 기여하는가?
  • RQ3Cobra는 Transformer 기반 동료들과 비슷한 파라미터 예산에서 개방형 VQA 및 닫힌 집합 공간/현실착실 벤치마크에서 어떻게 성능을 발휘하는가?
  • RQ4MLLMs를 위한 상태공간 백본 채택 시 추론 속도 및 메모리 사용 측면에서 Transformer 베이스라인 대비 어떤 이득이 있는가?

주요 결과

모델LLMVQA_v2GQAVizWizVQA_TVSRPOPE
OpenFlamingoMPT-7B52.7-27.533.6--
BLIP-2Vicuna-13B-41.019.642.550.9-
MiniGPT-4Vicuna-7B32.2-----
InstructBLIPVicuna-7B-49.234.550.154.3-
InstructBLIPVicuna-13B-49.533.450.752.1-
ShikraVicuna-13B77.4-----
IDEFICSLLaMA-7B50.9-35.525.9--
IDEFICSLLaMA-75B60.0-36.030.9--
Qwen-VLQwen-7B78.259.335.263.8--
LLaVA v1.5Vicuna-7B78.562.050.058.2-85.9
PrismLLaMA-7B81.065.352.859.759.688.1
ShareGPT4VVicuna-7B80.657.2----
MoE-LLaVAStableLM-1.6B76.760.336.250.1-85.7
MoE-LLaVAPhi2-2.7B77.661.443.951.4-86.3
Llava-PhiPhi2-2.7B71.4-35.948.6-85.0
MobileVLM v2MobileLLaMA-2.7B-61.1-57.5-84.7
TinyLLaVAPhi2-2.7B79.962.0-59.1-86.4
Cobra (ours)Mamba-2.8B75.958.552.046.063.688.0
  • Cobra는 선형 순차 모델링의 이점을 활용하면서 LLaVA-Phi, TinyLLaVA, MobileVLM v2 등과 같은 수준의 효율적인 최첨단 방법과 비교 가능한 성능을 달성.
  • Cobra는 공간 관계 판단 및 시각적 환각 감소를 포함한 닫힌 집합 과제에서 강한 강건성을 보여줌.
  • 약 43%의 파라미터를 가진 Cobra가 LLaVA v1.5 7B와 유사한 벤치마크에서 비교 가능한 성능을 달성, 효율성 이점 강조.
  • 추론 속도는 Cobra에서 크게 빠름(예: 유사한 크기에서 MobileVLM v2 및 TinyLLaVA 대비 3배~4배 빠름).
  • 애블레이션 결과 DINOv2와 SigLIP의 결합이 성능을 향상시키며 챗-조정된 Mamba 모델의 미세조정이 지시 준수 성능을 더 낫게 한다.
Figure 2 : Detailed architecture of Cobra (right) that takes Mamba as the backbone consisting of identical Mamba blocks (left). The parameters of vision encoders are frozen during training.
Figure 2 : Detailed architecture of Cobra (right) that takes Mamba as the backbone consisting of identical Mamba blocks (left). The parameters of vision encoders are frozen during training.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.