Skip to main content
QUICK REVIEW

[논문 리뷰] VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Jiaxin Fan, Wenpo Song|arXiv (Cornell University)|2026. 03. 05.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

VisionPangu는 1.7B 규모의 다중모달 모델로, 가벼운 비전 인코더를 언어 백본과 정렬하고 DOCCI와 LLaVA-NeXT의 고품질 감독으로 상세한 이미지 자막 생성을 달성합니다.

ABSTRACT

Large Multimodal Models (LMMs) have achieved strong performance in vision-language understanding, yet many existing approaches rely on large-scale architectures and coarse supervision, which limits their ability to generate detailed image captions. In this work, we present VisionPangu, a compact 1.7B-parameter multimodal model designed to improve detailed image captioning through efficient multimodal alignment and high-quality supervision. Our model combines an InternVL-derived vision encoder with the OpenPangu-Embedded language backbone via a lightweight MLP projector and adopts an instruction-tuning pipeline inspired by LLaVA. By incorporating dense human-authored descriptions from the DOCCI dataset, VisionPangu improves semantic coherence and descriptive richness without relying on aggressive model scaling. Experimental results demonstrate that compact multimodal models can achieve competitive performance while producing more structured and detailed captions. The code and model weights will be publicly available at https://www.modelscope.cn/models/asdfgh007/visionpangu.

연구 동기 및 목표

  • 대규모 모델 없이도 강력한 다중모달 어시스턴트를 구축하도록 동기를 부여한다.
  • 정밀하고 의미적으로 일관된 이미지 자막을 향상시킨다.
  • 고품질의 길이가 긴 감독 데이터를 활용해 교차 모달 정렬을 안내한다.
  • 효율적인 아키텍처가 자막 생성 작업에서 더 큰 모델과 경쟁할 수 있음을 보여준다.

제안 방법

  • Dense visual 표현을 위해 미세조정된 InternVL-계열 비전 인코더를 사용한다.
  • 가벼운 MLP 프로젝터를 통해 비전 인코더를 OpenPangu-Embedded-1B 언어 모델과 연결한다.
  • (1) 고정된 컴포넌트로의 특징 정렬, (2) 전체 매개변수 미세조정의 두 단계 지시 조정으로 학습한다.
  • 일반 다중모달 지시 이행을 위한 LLaVA-NeXT의 감독과, Dense한 길이의 서술을 위한 DOCCI의 감독을 혼합한다.
  • 투영된 시각 특징 H_v에 조건화된 자기회귀 다중모달 목표를 따른다.

실험 결과

연구 질문

  • RQ1소형 1.7B 매개변수 다중모달 모델이 어떻게 상세하고 장문 자막을 달성할 수 있을까?
  • RQ2고품질 감독(DOCCI)과 지시 조정이 시각 내러션의 의미적 일관성을 향상시키는가?
  • RQ3가벼운 프로젝션 계층과 개조된 비전 인코더가 더 큰 모델의 자막 품질에 필적하거나 근접할 수 있는가?

주요 결과

  • VisionPangu는 상세 자막 벤치마크에서 컴팩트 모델 중 BLEU, METEOR, ROUGE-L 점수에서 최고를 달성한다 (BLEU 0.2859, METEOR 0.4708, ROUGE-L 0.3759).
  • 모델은 1.7B 매개변수임에도 표준 다중모달 벤치마크(MMMU, MMbench, POPE, MME)에서 경쟁력 있는 성능을 달성한다.
  • DOCCI를 통한 Dense 자막 감독은 패치 기반 자막에 비해 서사적 풍부함과 전체적 의미 기반을 향상시킨다.
  • 고정된 비전 인코더로의 특징 정렬과 전체 매개변수 SFT의 이중 단계 학습은 과도한 계산 없이도 효과적인 교차 모달 상호작용을 가능하게 한다.
  • 이 방법은 고품질 감독과 효율적인 아키텍처 설계를 결합하면 컴팩트 백본이 더 큰 모델과 경쟁할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.