QUICK REVIEW

[论文解读] SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Liu, Dongyang, Renrui Zhang|arXiv (Cornell University)|Feb 8, 2024

Natural Language Processing Techniques被引用 10

一句话总结

SPHINX-X 通过扩展数据和参数、简化架构、在一个阶段的一体化管道中训练，构建适用于各种基础模型的多模态大模型家族。

ABSTRACT

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

研究动机与目标

扩展多模态大模型的数据覆盖和参数规模，以提高跨领域的泛化能力。
精简架构与训练，以提升效率和在移动设备上的部署潜力。
整合多样的多领域数据集以及两个目标数据集（OCR 密集型与 Set-of-Mark），以提升视觉和文本能力。
展示在不同参数数量和多语言支持下的基础 LLMs 的性能提升。

提出的方法

通过保留两个视觉编码器（DINOv2 与 CLIP-ConvNeXt）形成 MoV 来修改 SPHINX。
引入可学习跳过标记，以跳过完全填充的子图像并减少序列长度。
将广泛的语言、视觉和视觉-语言数据转换为统一的多轮对话格式，以实现一阶段训练。
将包含 OCR 密集型和 Set-of-Mark 数据的大型多领域数据集与公开的视觉-语言资源进行聚合。
在单阶段管道中对基础 LLMs 进行 SPHINX-X 变体训练，如 TinyLlama-1.1B、InternLM2-7B、LLaMA2-13B、Mixtral-8×7B。
评估数据与参数规模如何在基准测试中与多模态性能相关。

实验结果

研究问题

RQ1数据规模如何影响在不同基础 LLM 尺寸上的多模态性能？
RQ2减少视觉编码器并使用跳过标记对效率和准确性有何影响？
RQ3单阶段一体化训练管道是否能达到甚至超过多阶段训练在 MLLMs 的表现？
RQ4OCR 密集型和 Set-of-Mark 数据集在提升领域特定能力方面有多大帮助？
RQ5随着参数数量增加和数据多样化，多语言和多领域能力是否会提升？

主要发现

增加的数据和更大的 LLM 参数与跨基准的多模态理解提升相关。
带有两个视觉编码器（MoV）和跳过标记的 SPHINX-X 可降低序列长度并保持性能。
一阶段的一体化训练管道成功地将多样的数据集和任务统一用于 MLLMs。
OCR 密集型和 Set-of-Mark 数据提升 OCR 和细粒度多模态能力。
SPHINX-Plus 与 SPHINX-MoE 变体在使用扩展数据和参数时相较原始 SPHINX 显示改进。
将基础 LLM 从 1.1B 扩展到最高 7×8B 参数，在相同训练管道下持续提升多模态推理能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。