QUICK REVIEW

[论文解读] SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Ziyi Lin, Chris Liu|arXiv (Cornell University)|Nov 13, 2023

Multimodal Machine Learning Applications被引用 24

一句话总结

SPHINX 在预训练期间解冻大型语言模型，混合来自真实世界与合成数据的权重，混合微调任务与视觉嵌入，并使用高分辨率子图像标记来提升多模态理解。

ABSTRACT

We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.

研究动机与目标

通过通过权重混合整合领域多样知识来推动扩展多模态大模型的能力。
通过对多样化的视觉-语言任务集合进行联合微调，实现广泛的视觉指令跟随。
通过混合来自多种骨干网络和预训练范式的嵌入来提升视觉表示。
通过引入多尺度和子图像标记来解决高分辨率视觉感知。
通过模型整合探索语言指称分割和图像编辑等实际扩展。

提出的方法

在预训练期间解冻整个LLM，以在保持视觉编码器冻结的同时改善视觉-语言对齐。
引入一个权重混合策略，将真实世界域和合成域的LLM权重线性组合：theta_mix = beta * theta_real + (1 - beta) * theta_syn。
混合大量微调任务，为模型提供多样化的视觉指令跟随训练，并使用任务特定提示以避免任务间冲突。
对来自多样化骨干网络（卷积神经网络 CNN 与 ViT、监督与自监督、全局与局部）进行嵌入集成，并将它们串联以获得健壮的图像表示。
通过并行处理多个图像裁剪和下采样版本来混合尺度和高分辨率子图像，连接标记组以实现细粒度的高分辨率理解。
通过与 SAM 集成实现语言指称分割，以及通过 LaMa 与 Stable Diffusion 进行图像编辑等应用来扩展 SPHINX；展示 SPHINX 作为视觉识别任务的通用初始化。

实验结果

研究问题

RQ1在预训练期间解冻 LLM 如何影响跨模态对齐以及语言能力的保持？
RQ2真实世界和合成域 LLM 的线性权重混合是否提升鲁棒性和领域特定知识的整合？
RQ3多视觉任务的联合混合与多样嵌入是否在基准测试上实现更优的多模态理解？
RQ4高分辨率子图像策略与多尺度嵌入混合是否能提升细粒度视觉解析和区域级推理？
RQ5将 SPHINX 与其他视觉基础模型结合时的实际扩展及下游收益有哪些？

主要发现

SPHINX 在 10 项基准中的 6 项上超越了之前的最先进多模态语言模型的表现。
高分辨率变体 SPHINX-1k 和 SPHINX-2k 在若干任务上相较于基础 SPHINX 显示出改进，尤其是 POPE。
混合尺度的高分辨率子图像在不重新训练视觉编码器的情况下实现更好的细粒度视觉感知。
来自多样骨干网络和多种预训练范式的混合嵌入带来更强的视觉-语言对齐和鲁棒性。
通过权重和任务混合的两阶段训练在保持语言建模质量的同时实现跨模态能力。
SPHINX 展现了在通用 VQA 与文本导向的 VQA 基准测试中的多样性，并取得具有竞争力的结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。