[论文解读] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
SigLIP 2 引入了一个多语言视觉-语言编码器家族,该家族融合解码器为基础的预训练、自监督损失和数据整理,以提升多语言VLM性能、密集特征和定位能力,并为原生宽高比和多分辨率的 NaFlex 变体。
We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).
研究动机与目标
- 推动多语言视觉-语言理解,超越以英语为中心的模型。
- 提升分割和检测任务的定位能力与密集特征质量。
- 产出一个向后兼容的 SigLIP 扩展,使用多语言数据和更稳健的训练方案。
- 提供支持原生纵横比和可变分辨率的变体(NaFlex)。
- 在保持多语言能力的同时,通过蒸馏和主动数据整理实现小模型高效。
提出的方法
- 通过 LocCa 类目标,将 SigLIP 与基于解码器的预训练(描述和定位)相结合。
- 加入自蒸馏和掩码预测(受 SILC/TIPS 启发)以提升局部语义。
- 采用分阶段的训练方案,结合数据整理和英文/非英文平衡混合数据。
- 引入 NaFlex,用于原生纵横比和可变分辨率处理,并进行分辨率感知训练。
- 通过主动数据整理(ACID)进行蒸馏,以提升小模型性能。
实验结果
研究问题
- RQ1一个多语言、开源权重的视觉-语言编码器是否能在各语言上达到最先进的零样本和检索性能?
- RQ2基于解码器的预训练和自监督局部-全局损失是否提升密集预测与定位任务?
- RQ3通过去偏的多语言训练是否能在不牺牲英语性能的情况下改善公平性和跨语言理解?
- RQ4单一模型变体是否能有效支持多分辨率并保持原生纵横比(NaFlex)?
- RQ5通过主动数据整理进行蒸馏对小模型规模的影响是什么?
主要发现
- SigLIP 2 在跨语言的零样本分类和检索上优于 SigLIP 及多个开源权重基线。
- 基于解码器的预训练和自监督损失提升定位和密集预测性能。
- NaFlex 变体能有效处理多分辨率并保持原生纵横比,在OCR/文档相关基准上具备强检索性能。
- 通过数据去偏的多语言训练实现更好的多语言理解与公平性,降低相对于 SigLIP 的表征偏差。
- 小模型蒸馏(ACID)提升了 B/16 与 B/32 模型的性能。
- SigLIP 2 作为 VLM 的视觉编码器效果显著,提升在多样化任务上的下游迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。