QUICK REVIEW

[论文解读] TinyLLaVA: A Framework of Small-scale Large Multimodal Models

Baichuan Zhou, Ying Hu|arXiv (Cornell University)|Feb 22, 2024

Speech and dialogue systems被引用 15

一句话总结

TinyLLaVA 通过优化数据质量和训练方案，分析小规模 LMM 如何与更大模型匹配，推出一系列 1.1–3.1B 参数的模型，在综合基准中超越部分 7B 级对手。

ABSTRACT

We present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training data and training recipes. Our extensive experiments showed that better quality of data combined with better training recipes, smaller LMMs can consistently achieve on-par performances compared to bigger LMMs. Under our framework, we train a family of small-scale LMMs. Our best model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as baselines for future research in terms of data scaling, training setups and model selections. Our model weights and codes will be made public.

研究动机与目标

在统一框架下评估视觉编码器选择、连接器设计、语言模型规模与数据质量对小规模 LMM 的影响。
确定能使小 LMM 实现与更大模型竞争或优越性能的训练方案与数据混合。
为在资源受限环境下设计与训练小规模 LMM 提供基线和实用指南。

提出的方法

提出一个模块化的 TinyLLaVA 框架，包含一个视觉编码器、一个小规模的 LLM，以及一个连接器模块。
两阶段训练：使用图像-文本描述风格数据进行特征对齐的预训练，随后在多轮图像-文本对话上进行监督微调。
两种训练方案：base（冻结视觉编码器；训练连接器和 LLM）和 share（冻结前 12 层视觉编码器；微调更多参数）。
在 LLM 主干模型（TinyLlama、StableLM-2、Phi-2）、视觉编码器（CLIP、SigLIP）以及连接器（MLP 与 Resampler）等方面进行实验。
在 VQA/GQA/SQA I、TextVQA 与全面基准测试（POPE、MM-Vet、LLaVA-W、MME、MMBench）上评估。
将 TinyLLaVA 变体与 SOTA LMM 进行对比，以评估其竞争力。

实验结果

研究问题

RQ1不同视觉编码器和小型 LLM 主干在 TinyLLaVA 下如何影响多模态理解？
RQ2训练数据质量与规模对小规模 LMM 的性能有何影响？
RQ3在基线评测上，微调更多参数的训练方案对小规模 LMM 是有帮助还是有害？
RQ4TinyLLaVA 的变体是否能在参数显著少于 7B+ 模型的情况下实现有竞争力的性能？

主要发现

在数据质量更高且训练方案有效的情况下，小型 LMM 可以达到与大型对手相当或更好的性能。
SigLIP 作为视觉编码器相比 CLIP 有显著提升，可能由于输入分辨率更高和视觉 token 更多。
Phi-2 在小型 LLM 主干中通常表现出色，受益于更大的参数量。
share 训练方案在多个变体上提升了性能，尤其是在更大且更多样的预训练数据下，但对某些主干可能增加幻觉（hallucinations）。
TinyLLaVA-3.1B 在合适的数据/方案下，在综合指标上优于现有的 7B 模型如 LLaVA-1.5 与 Qwen-VL。
较小 LLM 的 TinyLLaVA 变体在预训练阶段可能需要更多可训练参数以适应更大数据，而较大 LLM 在训练更多参数时可能更容易产生幻觉。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。