[논문 리뷰] SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models
SPHINX는 사전 학습 중 LLM의 자유화(unfreezes)를 수행하고, 실제 데이터와 합성 데이터의 가중치를 혼합하며, 조정 작업과 시각 임베딩을 혼합하고, 다중 해상도 서브 이미지 토큰을 사용하여 다중 모달 이해를 향상시킨다.
We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.
연구 동기 및 목표
- 다양한 도메인 지식을 가중치 혼합을 통해 다중 모달 LLM의 용량 확장을 동기화한다.
- 다양한 비전-언어 작업의 공동 튜닝을 통해 광범위한 시각 지시사항 수행 능력을 가능하게 한다.
- 여러 백본과 사전 학습 패러다임의 임베딩을 혼합하여 시각 표현을 개선한다.
- 다중 축 및 고해상도 시각 인식을 다룰 수 있도록 다중 규모의 시각 정보를 도입한다.
- 모델 통합을 통한 언어-참조 분할 및 이미지 편집과 같은 실용적 확장 가능성을 탐구한다.
제안 방법
- 사전 학습 중 전체 LLM의 자유화를 통해 비전-언어 정렬을 개선하되 비전 인코더는 고정된 상태로 둔다.
- 실세계 및 합성 도메인 LLM 가중치를 선형적으로 결합하는 가중치 혼합 전략을 도입한다: theta_mix = beta * theta_real + (1 - beta) * theta_syn.
- 문제 간 충돌을 피하기 위해 작업별 프롬프트로 구성된 다양한 튜닝 작업을 혼합하여 다재다능한 시각 지시 수행을 위한 모델을 학습한다.
- 다양한 백본(CNN 및 ViT, 지도 학습 및 자기 지도 학습, 전역 및 지역)을 혼합한 시각 임베딩을 앙상블하고 이를 연결하여 강건한 이미지 표현을 얻는다.
- 여러 이미지 크롭과 다운샘플 버전을 병렬로 처리하고 토큰 그룹을 결합해 고해상도 세부 이해를 가능하게 한다.
- SAM과의 통합으로 언어-참조 분할, LaMa 및 Stable Diffusion을 통한 이미지 편집 등 SPHINX의 응용 확장을 제시하고, 시각 인식 과제의 보편적 초기화로 SPHINX를 제시한다.
실험 결과
연구 질문
- RQ1사전 학습 중 LLM의 자유화가 교차 모달 정렬 및 언어 능력 보존에 어떤 영향을 미치는가?
- RQ2실세계 및 합성 도메인 LLM 가중치의 선형 혼합이 강건성과 도메인 특화 지식 통합을 개선하는가?
- RQ3다양한 비전 작업과 다양한 임베딩의 공동 혼합이 벤치마크 전반에서 우수한 다중 모달 이해를 이끌어내는가?
- RQ4고해상도 서브 이미지 전략과 다중 규모 임베딩 혼합이 세밀한 시각 파싱과 영역 단위 추론을 개선하는가?
- RQ5다른 비전 기본 모델과 결합했을 때 SPHINX의 실용적 확장 및 다운스트림 이점은 무엇인가?
주요 결과
- SPHINX는 10개 벤치마크 중 6개에서 이전 최첨단 MLLM 성능을 상회한다.
- 고해상도 버전인 SPHINX-1k 및 SPHINX-2k가 기본 SPHINX에 비해 POPE를 포함한 여러 작업에서 성능이 향상되었다.
- 혼합 규모의 고해상도 서브 이미지는 비전 인코더 재학습 없이도 미세한 시각 인지를 개선한다.
- 다양한 백본과 사전 학습 패러다임에서 온 혼합 임베딩은 시각-언어 정렬 및 강건성을 강화한다.
- 가중치 및 작업 혼합으로 이루어진 2단계 학습은 언어 모델링 품질을 유지하면서 교차 모달 기능을 가능하게 한다.
- SPHINX는 일반 VQA 및 텍스트 중심 VQA 벤치마크에서 다재다능함을 입증하며 경쟁력 있는 성과를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.