Skip to main content
QUICK REVIEW

[논문 리뷰] SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Liu, Dongyang, Renrui Zhang|arXiv (Cornell University)|2024. 02. 08.
Natural Language Processing Techniques인용 수 10
한 줄 요약

SPHINX-X는 데이터 및 매개변수의 스케일링, 아키텍처의 단순화, 그리고 하나의 단계로 모든 것을 수행하는 파이프라인에서의 학습을 통해 SPHINX를 확장하여 다양한 기본 모델에 걸친 멀티모달 LLM 가족을 구축합니다.

ABSTRACT

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

연구 동기 및 목표

  • 다양한 도메인에 걸친 일반화 향상을 위해 멀티모달 LLM의 데이터 커버리지와 매개변수 규모를 확장합니다.
  • 아키텍처와 학습을 간소화하여 효율성과 모바일 기기에서의 배포 가능성을 향상시킵니다.
  • 다양한 멀티 도메인 데이터셋과 두 가지 대상 데이터셋(OCR 중심 및 Set-of-Mark)을 통합하여 시각적 및 텍스트 재능을 향상시킵니다.
  • 다양한 매개변수 수를 가진 기본 LLM들 및 다국어 지원에서 성능 향상을 입증합니다.

제안 방법

  • MoV를 형성하기 위해 DINOv2와 CLIP-ConvNeXt의 두 시각 인코더를 유지한 채 SPHINX를 수정합니다.
  • 완전히 패딩된 하위 이미지를 건너뛰고 시퀀스 길이를 줄이기 위해 학습 가능한 skip 토큰을 도입합니다.
  • 다양한 언어, 시각, 시각-언어 데이터를 하나의 단계 학습을 위한 통합 다회 대화 형식으로 변환합니다.
  • OCR 중심 및 Set-of-Mark 데이터를 포함한 대규모 멀티 도메인 데이터세트를 공개 비전-언어 자원과 함께 모읍니다.
  • 단일 단계 파이프라인에서 TinyLlama-1.1B, InternLM2-7B, LLaMA2-13B, Mixtral-8×7B와 같은 기본 LLM에 대한 SPHINX-X 변형을 학습합니다.
  • 데이터 및 매개변수 규모가 벤치마크 전반의 멀티모달 성능과 어떤 상관관계가 있는지 평가합니다.

실험 결과

연구 질문

  • RQ1데이터 규모가 서로 다른 기본 LLM 크기에서 멀티모달 성능에 어떤 영향을 미치나요?
  • RQ2시각 인코더를 축소하고 skip 토큰을 사용하는 것이 효율성과 정확도에 미치는 영향은 무엇인가요?
  • RQ3하나의 단계로 이루어진 단일 파이프라인이 MLLMs의 다단계 학습에 비견되거나 이를 상회할 수 있나요?
  • RQ4OCR 중심 및 Set-of-Mark 데이터가 도메인 특화 능력을 어느 정도 향상시키나요?
  • RQ5다국어 및 다도메인 능력은 증가된 매개변수 수와 다양한 데이터로 향상되나요?

주요 결과

  • 확대된 데이터와 더 큰 LLM 매개변수가 벤치마크 전반에서 멀티모달 이해를 향상시키는 것과 상관관계가 있습니다.
  • 두 시각 인코더(MoV)와 skip 토큰이 있는 SPHINX-X는 시퀀스 길이를 축소하고 성능을 유지합니다.
  • 하나의 단계로 모든 데이터를 하나로 처리하는 훈련 파이프라인이 다양한 데이터셋과 태스크를 성공적으로 통합합니다.
  • OCR 중심 및 Set-of-Mark 데이터가 OCR 및 세밀한 멀티모달 능력을 향상시킵니다.
  • 확대된 데이터와 매개변수를 사용할 때 원래 SPHINX에 비해 SPHINX-Plus 및 SPHINX-MoE 변형이 향상을 보입니다.
  • 같은 학습 파이프라인에서 기본 LLM을 1.1B에서 최대 7×8B 매개변수로 확장하면 멀티모달 추론이 일관되게 향상됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.