[论文解读] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
本论文提出了 ShareGPT4V,这是一份由 GPT-4 Vision 与 captioner 共同生成的 120 万条高质量字幕的图像-字幕数据集,并展示使用这些字幕可以提升模态对齐和大模型多模态任务性能,其中还包括实现跨 11 项基准的竞争性结果的 7B 模型 ShareGPT4V-7B。
In the realm of large multi-modal models (LMMs), efficient modality alignment is crucial yet often constrained by the scarcity of high-quality image-text data. To address this bottleneck, we introduce the ShareGPT4V dataset, a pioneering large-scale resource featuring 1.2 million highly descriptive captions, which surpasses existing datasets in diversity and information content, covering world knowledge, object properties, spatial relationships, and aesthetic evaluations. Specifically, ShareGPT4V originates from a curated 100K high-quality captions collected from advanced GPT4-Vision and has been expanded to 1.2M with a superb caption model trained on this subset. ShareGPT4V first demonstrates its effectiveness for the Supervised Fine-Tuning (SFT) phase, by substituting an equivalent quantity of detailed captions in existing SFT datasets with a subset of our high-quality captions, significantly enhancing the LMMs like LLaVA-7B, LLaVA-1.5-13B, and Qwen-VL-Chat-7B on the MME and MMBench benchmarks, with respective gains of 222.8/22.0/22.3 and 2.7/1.3/1.5. We further incorporate ShareGPT4V data into both the pre-training and SFT phases, obtaining ShareGPT4V-7B, a superior LMM based on a simple architecture that has remarkable performance across a majority of the multi-modal benchmarks. This project is available at https://ShareGPT4V.github.io to serve as a pivotal resource for advancing the LMMs community.
研究动机与目标
- 突出字幕质量对大型多模态模型中的视觉-语言模态对齐的影响。
- 创建一个大规模、高质量的图像-字幕数据集(ShareGPT4V),将 GPT-4 Vision 的字幕与训练好的 captioner 产物结合起来。
- 证明在预训练和有条件微调(SFT)中加入 ShareGPT4V 数据能够在轻量化架构下实现更优的 LMM 性能。
- 展示一个 7B 规模的模型(ShareGPT4V-7B),在多样化的多模态基准上取得强力结果。
提出的方法
- 使用 100K 的 GPT-4 Vision 字幕加上一个训练有素的 captioner 产出的 1.2M 条字幕来构建 ShareGPT4V。
- 以一个具备视觉编码器、MLP 投影层和一个基于 Vicuna 的大型语言模型的简单 ShareGPT4V-7B 架构进行训练。
- 使用 ShareGPT4V-PT 字幕进行预训练,并对 vision 与 language 两个模块进行联合微调。
- 在现有 SFT 数据中替换部分数据为 ShareGPT4V 字幕,以衡量对性能的影响。
- 进行消融实验以评估预训练与 SFT 的贡献以及字幕质量的影响。
实验结果
研究问题
- RQ1高质量的图像字幕如何影响模态对齐及下游多模态任务性能?
- RQ2在 7B 规模的 LMM 中,加入 ShareGPT4V 数据在预训练和 SFT 对性能的影响如何?
- RQ3与其他字幕提供者与数据集相比,ShareGPT4V 的字幕质量在推动基准改进方面的效果如何?
主要发现
- 将 ShareGPT4V 字幕替代部分 SFT 字幕可在多种 LMM 与基准测试上带来显著提升。
- 使用 ShareGPT4V-PT 字幕进行预训练并结合微调(ShareGPT4V)可获得最佳整体性能,优于若干基线。
- ShareGPT4V-7B 在 11 个基准测试上表现出色,往往超越更大规模或数据需求更高的模型。
- 在预训练阶段仅微调视觉编码器的后半部分可获得显著的性能提升。
- 消融实验表明高质量字幕显著提升感知与认知相关指标。
- ShareGPT4V-PT 数据本身就带来显著的改进,将其扩展到 120 万条并结合通用字幕器进一步提升结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。