Skip to main content
QUICK REVIEW

[论文解读] SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Liu, Dongyang, Renrui Zhang|arXiv (Cornell University)|Feb 8, 2024
Natural Language Processing Techniques被引用 10
一句话总结

SPHINX-X 通过扩展数据和参数、简化架构、在一个阶段的一体化管道中训练,构建适用于各种基础模型的多模态大模型家族。

ABSTRACT

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

研究动机与目标

  • 扩展多模态大模型的数据覆盖和参数规模,以提高跨领域的泛化能力。
  • 精简架构与训练,以提升效率和在移动设备上的部署潜力。
  • 整合多样的多领域数据集以及两个目标数据集(OCR 密集型与 Set-of-Mark),以提升视觉和文本能力。
  • 展示在不同参数数量和多语言支持下的基础 LLMs 的性能提升。

提出的方法

  • 通过保留两个视觉编码器(DINOv2 与 CLIP-ConvNeXt)形成 MoV 来修改 SPHINX。
  • 引入可学习跳过标记,以跳过完全填充的子图像并减少序列长度。
  • 将广泛的语言、视觉和视觉-语言数据转换为统一的多轮对话格式,以实现一阶段训练。
  • 将包含 OCR 密集型和 Set-of-Mark 数据的大型多领域数据集与公开的视觉-语言资源进行聚合。
  • 在单阶段管道中对基础 LLMs 进行 SPHINX-X 变体训练,如 TinyLlama-1.1B、InternLM2-7B、LLaMA2-13B、Mixtral-8×7B。
  • 评估数据与参数规模如何在基准测试中与多模态性能相关。

实验结果

研究问题

  • RQ1数据规模如何影响在不同基础 LLM 尺寸上的多模态性能?
  • RQ2减少视觉编码器并使用跳过标记对效率和准确性有何影响?
  • RQ3单阶段一体化训练管道是否能达到甚至超过多阶段训练在 MLLMs 的表现?
  • RQ4OCR 密集型和 Set-of-Mark 数据集在提升领域特定能力方面有多大帮助?
  • RQ5随着参数数量增加和数据多样化,多语言和多领域能力是否会提升?

主要发现

  • 增加的数据和更大的 LLM 参数与跨基准的多模态理解提升相关。
  • 带有两个视觉编码器(MoV)和跳过标记的 SPHINX-X 可降低序列长度并保持性能。
  • 一阶段的一体化训练管道成功地将多样的数据集和任务统一用于 MLLMs。
  • OCR 密集型和 Set-of-Mark 数据提升 OCR 和细粒度多模态能力。
  • SPHINX-Plus 与 SPHINX-MoE 变体在使用扩展数据和参数时相较原始 SPHINX 显示改进。
  • 将基础 LLM 从 1.1B 扩展到最高 7×8B 参数,在相同训练管道下持续提升多模态推理能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。