[论文解读] MiniVLM: A Smaller and Faster Vision-Language Model
MiniVLM 是一种紧凑高效的视觉语言模型,在参数量减少 73%、FLOPs 降低 99% 的情况下,实现了与 SOTA 模型(如 OSCAR${}_{\text{B}}$)94–97% 的准确率。它采用两阶段高效特征提取器(TEE)实现快速视觉特征提取,并基于 MiniLM 的 Transformer 架构,通过使用伪标签 Open Images 数据和高质量图像标签进行预训练以增强性能。
Recent vision-language (VL) studies have shown remarkable progress by learning generic representations from massive image-text pairs with transformer models and then fine-tuning on downstream VL tasks. While existing research has been focused on achieving high accuracy with large pre-trained models, building a lightweight model is of great value in practice but is less explored. In this paper, we propose a smaller and faster VL model, MiniVLM, which can be finetuned with good performance on various downstream tasks like its larger counterpart. MiniVLM consists of two modules, a vision feature extractor and a transformer-based vision-language fusion module. We design a Two-stage Efficient feature Extractor (TEE), inspired by the one-stage EfficientDet network, to significantly reduce the time cost of visual feature extraction by $95\%$, compared to a baseline model. We adopt the MiniLM structure to reduce the computation cost of the transformer module after comparing different compact BERT models. In addition, we improve the MiniVLM pre-training by adding $7M$ Open Images data, which are pseudo-labeled by a state-of-the-art captioning model. We also pre-train with high-quality image tags obtained from a strong tagging model to enhance cross-modality alignment. The large models are used offline without adding any overhead in fine-tuning and inference. With the above design choices, our MiniVLM reduces the model size by $73\%$ and the inference time cost by $94\%$ while being able to retain $94-97\%$ of the accuracy on multiple VL tasks. We hope that MiniVLM helps ease the use of the state-of-the-art VL research for on-the-edge applications.
研究动机与目标
- 开发一种适用于资源受限设备部署的轻量化视觉语言模型。
- 在不牺牲下游任务性能的前提下,降低视觉特征提取的计算成本。
- 通过利用大模型和大规模数据集,改进小模型的预训练方法。
- 在极低参数量和推理成本下实现高准确率,支持边缘设备部署。
提出的方法
- 设计一种受 EfficientDet 启发的两阶段高效特征提取器(TEE),与 Faster R-CNN 相比,将视觉特征提取成本降低 99%。
- 采用 MiniLM 架构作为视觉语言 Transformer,以在保持性能的同时最小化计算量。
- 使用由 SOTA 描述模型生成的 700 万条伪标签 Open Images 数据对 MiniVLM 进行预训练。
- 在预训练过程中引入强模型生成的高质量图像标签,以增强跨模态对齐。
- 通过仅在预训练数据生成和蒸馏阶段使用大模型,实现大模型与推理及微调过程的解耦。
- 通过简化区域头组件并用深度可分离卷积和逐点卷积替代标准卷积,优化视觉模块。
实验结果
研究问题
- RQ1能否在显著减小模型规模和提升推理速度的同时,保留大模型的大部分性能?
- RQ2轻量化两阶段检测器在视觉语言任务中的视觉特征提取中效果如何?
- RQ3使用伪标签数据和高质量标签进行预训练,能在多大程度上提升小模型的性能?
- RQ4在视觉语言模型中,模型大小、FLOPs 和准确率之间的最优权衡是什么?
主要发现
- MiniVLM 在 COCO 图像字幕任务上的 CIDEr 得分为 119.8,达到 OSCAR${}_{\text{B}}$(123.7)的 97%,尽管仅使用了其 27% 的参数量。
- 该模型在多个下游任务中保持 94–97% 的准确率,同时将 FLOPs 降低 99%(仅相当于 OSCAR${}_{\text{B}}$ 的 1%)。
- 在预训练过程中引入高质量图像标签,使 CIDEr 得分提升超过 2 分,VQA 准确率提升超过 1 分,相较无标签设置。
- TEE-0(其主干网络与 EfficientDet-D0 相似)的参数量仅为 R101 Faster R-CNN 的 1/3.7,推理速度提升 99 倍,且在 Visual Genome 上的检测 mAP 接近。
- 基于 MiniLM 的 Transformer 在视觉语言任务中,相比其他紧凑 BERT 变体,在速度-准确率权衡上表现更优。
- 随机初始化 Transformer 与使用文本预训练权重相比,性能相当,表明小模型可通过自监督预训练有效学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。