QUICK REVIEW

[논문 리뷰] SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Liu, Dongyang, Renrui Zhang|arXiv (Cornell University)|2024. 02. 08.

Natural Language Processing Techniques인용 수 10

한 줄 요약

SPHINX-X는 데이터 및 매개변수의 스케일링, 아키텍처의 단순화, 그리고 하나의 단계로 모든 것을 수행하는 파이프라인에서의 학습을 통해 SPHINX를 확장하여 다양한 기본 모델에 걸친 멀티모달 LLM 가족을 구축합니다.

ABSTRACT

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

연구 동기 및 목표

다양한 도메인에 걸친 일반화 향상을 위해 멀티모달 LLM의 데이터 커버리지와 매개변수 규모를 확장합니다.
아키텍처와 학습을 간소화하여 효율성과 모바일 기기에서의 배포 가능성을 향상시킵니다.
다양한 멀티 도메인 데이터셋과 두 가지 대상 데이터셋(OCR 중심 및 Set-of-Mark)을 통합하여 시각적 및 텍스트 재능을 향상시킵니다.
다양한 매개변수 수를 가진 기본 LLM들 및 다국어 지원에서 성능 향상을 입증합니다.

제안 방법

MoV를 형성하기 위해 DINOv2와 CLIP-ConvNeXt의 두 시각 인코더를 유지한 채 SPHINX를 수정합니다.
완전히 패딩된 하위 이미지를 건너뛰고 시퀀스 길이를 줄이기 위해 학습 가능한 skip 토큰을 도입합니다.
다양한 언어, 시각, 시각-언어 데이터를 하나의 단계 학습을 위한 통합 다회 대화 형식으로 변환합니다.
OCR 중심 및 Set-of-Mark 데이터를 포함한 대규모 멀티 도메인 데이터세트를 공개 비전-언어 자원과 함께 모읍니다.
단일 단계 파이프라인에서 TinyLlama-1.1B, InternLM2-7B, LLaMA2-13B, Mixtral-8×7B와 같은 기본 LLM에 대한 SPHINX-X 변형을 학습합니다.
데이터 및 매개변수 규모가 벤치마크 전반의 멀티모달 성능과 어떤 상관관계가 있는지 평가합니다.

실험 결과

연구 질문

RQ1데이터 규모가 서로 다른 기본 LLM 크기에서 멀티모달 성능에 어떤 영향을 미치나요?
RQ2시각 인코더를 축소하고 skip 토큰을 사용하는 것이 효율성과 정확도에 미치는 영향은 무엇인가요?
RQ3하나의 단계로 이루어진 단일 파이프라인이 MLLMs의 다단계 학습에 비견되거나 이를 상회할 수 있나요?
RQ4OCR 중심 및 Set-of-Mark 데이터가 도메인 특화 능력을 어느 정도 향상시키나요?
RQ5다국어 및 다도메인 능력은 증가된 매개변수 수와 다양한 데이터로 향상되나요?

주요 결과

확대된 데이터와 더 큰 LLM 매개변수가 벤치마크 전반에서 멀티모달 이해를 향상시키는 것과 상관관계가 있습니다.
두 시각 인코더(MoV)와 skip 토큰이 있는 SPHINX-X는 시퀀스 길이를 축소하고 성능을 유지합니다.
하나의 단계로 모든 데이터를 하나로 처리하는 훈련 파이프라인이 다양한 데이터셋과 태스크를 성공적으로 통합합니다.
OCR 중심 및 Set-of-Mark 데이터가 OCR 및 세밀한 멀티모달 능력을 향상시킵니다.
확대된 데이터와 매개변수를 사용할 때 원래 SPHINX에 비해 SPHINX-Plus 및 SPHINX-MoE 변형이 향상을 보입니다.
같은 학습 파이프라인에서 기본 LLM을 1.1B에서 최대 7×8B 매개변수로 확장하면 멀티모달 추론이 일관되게 향상됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.