[논문 리뷰] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
본 논문은 GPT-4 Vision과 캡션 작성기가 생성한 1.2M개의 고품질 캡션으로 구성된 대규모 이미지-캡션 데이터셋 ShareGPT4V를 소개하고, 이 캡션들을 사용하면 모달리티 정렬 및 LMM 성능이 향상되며, 11개 벤치마크에서 경쟁력 있는 성과를 내는 7B 규모의 ShareGPT4V-7B 모델을 포함한다는 점을 보여준다.
In the realm of large multi-modal models (LMMs), efficient modality alignment is crucial yet often constrained by the scarcity of high-quality image-text data. To address this bottleneck, we introduce the ShareGPT4V dataset, a pioneering large-scale resource featuring 1.2 million highly descriptive captions, which surpasses existing datasets in diversity and information content, covering world knowledge, object properties, spatial relationships, and aesthetic evaluations. Specifically, ShareGPT4V originates from a curated 100K high-quality captions collected from advanced GPT4-Vision and has been expanded to 1.2M with a superb caption model trained on this subset. ShareGPT4V first demonstrates its effectiveness for the Supervised Fine-Tuning (SFT) phase, by substituting an equivalent quantity of detailed captions in existing SFT datasets with a subset of our high-quality captions, significantly enhancing the LMMs like LLaVA-7B, LLaVA-1.5-13B, and Qwen-VL-Chat-7B on the MME and MMBench benchmarks, with respective gains of 222.8/22.0/22.3 and 2.7/1.3/1.5. We further incorporate ShareGPT4V data into both the pre-training and SFT phases, obtaining ShareGPT4V-7B, a superior LMM based on a simple architecture that has remarkable performance across a majority of the multi-modal benchmarks. This project is available at https://ShareGPT4V.github.io to serve as a pivotal resource for advancing the LMMs community.
연구 동기 및 목표
- 캠프션 품질이 대규모 다중모달 모델의 비전-언어 모달리티 정렬에 미치는 영향을 강조한다.
- GPT-4 Vision 캡션과 학습된 캡션어를 결합한 대규모의 고품질 이미지-캡션 데이터셋(ShareGPT4V)을 만든다.
- ShareGPT4V 데이터를 사전 학습 및 SFT에 포함시켜 경량 아키텍처에서도 LMM 성능이 우수함을 보여준다.
- 다양한 다중모달 벤치마크에서 강력한 성능을 보이는 7B 규모 모델(ShareGPT4V-7B)을 선보인다.
제안 방법
- ShareGPT4V를 100K GPT-4 Vision 캡션과 1.2M 캡션으로 구성한다.
- 비전 인코더, MLP 프로젝터, LLM(Vicuna 기반)을 갖춘 간단한 ShareGPT4V-7B 아키텍처를 학습시킨다.
- ShareGPT4V-PT 캡션으로 모델을 사전 학습하고 비전 및 언어 구성 요소를 함께 미세 조정한다.
- 기존 SFT 데이터의 일부를 ShareGPT4V 캡션으로 대체하여 성능에 미치는 영향을 측정한다.
- 사전 학습 기여와 SFT 기여 및 캡션 품질 효과를 평가하기 위한 제거 실험(ablations)을 수행한다.
실험 결과
연구 질문
- RQ1고품질 이미지 자막이 모달리티 정렬 및 다운스트림 다중모달 태스크 성능에 어떤 영향을 미치는가?
- RQ27B 규모 LMM에서 사전 학습 및 SFT에 ShareGPT4V 데이터를 포함하는 것이 어떤 영향을 미치는가?
- RQ3ShareGPT4V 자막 품질이 벤치마크 전반에 걸친 개선을 주도하는지, 다른 자막 생성기 및 데이터셋과 비교하여 어떤 차이가 있는가?
주요 결과
- ShareGPT4V 자막의 일부를 SFT 자막으로 대체하면 여러 LMM 및 벤치마크에서 상당한 이득이 나타난다.
- ShareGPT4V-PT 자막으로 사전 학습하고 이후 미세 조정(ShareGPT4V)을 수행하면 최상의 전반 성능을 얻으며 여러 기준선을 능가한다.
- ShareGPT4V-7B는 11개 벤치마크에서 강력한 성능을 보이며, 종종 더 크거나 데이터가 많은 모델보다도 우수한 성능을 보인다.
- 사전 학습 시 비전 인코더의 후반부만 미세 조정하는 것이 상당한 성능 향상을 제공한다.
- ABLATION 결과, 고품질 자막이 지각 및 인지 지표를 모두 크게 개선한다.
- ShareGPT4V-PT 데이터만으로도 주목할 만한 개선이 나타나고, 일반 자막어를 사용한 1.2M 자막으로 확장하면 결과가 더욱 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.