QUICK REVIEW

[论文解读] Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese

Yang An, Junshu Pan|arXiv (Cornell University)|Nov 2, 2022

Multimodal Machine Learning Applications被引用 52

一句话总结

Chinese CLIP 引入两阶段预训练方法，将 CLIP 适配到中文数据，在 MUGE、Flickr30K-CN 和 COCO-CN 上实现跨模态检索的最新性能，同时在零-shot 图像分类方面具有竞争力。

ABSTRACT

The tremendous success of CLIP (Radford et al., 2021) has promoted the research and application of contrastive learning for vision-language pretraining. In this work, we construct a large-scale dataset of image-text pairs in Chinese, where most data are retrieved from publicly available datasets, and we pretrain Chinese CLIP models on the new dataset. We develop 5 Chinese CLIP models of multiple sizes, spanning from 77 to 958 million parameters. Furthermore, we propose a two-stage pretraining method, where the model is first trained with the image encoder frozen and then trained with all parameters being optimized, to achieve enhanced model performance. Our comprehensive experiments demonstrate that Chinese CLIP can achieve the state-of-the-art performance on MUGE, Flickr30K-CN, and COCO-CN in the setups of zero-shot learning and finetuning, and it is able to achieve competitive performance in zero-shot image classification based on the evaluation on the ELEVATER benchmark (Li et al., 2022). We have released our codes, models, and demos in https://github.com/OFA-Sys/Chinese-CLIP

研究动机与目标

激发面向中文数据的语言原生视觉-语言预训练，以提升跨模态检索和开放域分类。
开发一种数据高效的两阶段预训练策略，利用现有基础模型处理中文多模态数据。
展示在中文跨模态检索基准上的最新性能，以及在零-shot 分类方面的竞争力。
提供可部署的模型和面向运行时优化的格式（TensorRT/ONNX）。

提出的方法

将视觉编码器初始化自 OpenAI CLIP，文本编码器初始化自 Chinese RoBERTa (wwm-ext)。
第1阶段：Locked-Image Tuning（LiT），仅训练文本编码器以实现视觉-语言对齐，同时保持图像编码器固定。
第2阶段：解冻两个编码器，在中文多模态数据上进行对比学习微调。
预训练数据包括公开的中文图文对（约2亿对）以及英语数据集的翻译和内部对搭配；数据预处理包括基于 CLIP-score 的过滤和基于黑名单的剪枝。
使用 MUGE-Retrieval、Flickr30K-CN、COCO-CN 的零-shot 与微调设置进行评估；另外在 ELEVATER ICinW 基准上评估零-shot 图像分类。

实验结果

研究问题

RQ1将 CLIP 迁移到中文数据时，语言原生的两阶段预训练策略能否提升跨模态检索？
RQ2在阶段1锁定图像编码器、阶段2同时训练两者，与从头训练或直接微调相比，是否能更好适应中文多模态数据？
RQ3相较于翻译自 CLIP 的基线与其他中文多模态模型，中文 CLIP 在原生中文检索基准上的表现如何？
RQ4在中文 CLIP 家族中，零-shot 检索与微调的模型规模与性能之间有哪些权衡？

主要发现

在多个模型大小下，中文 CLIP 模型在 MUGE、Flickr30K-CN 和 COCO-CN 的零-shot 检索和微调上达到最新水平。
两阶段预训练与 LiT 相结合，随后进行对比学习微调，在所有评测数据集上均明显优于从头训练或直接微调。
大型和极大型中文 CLIP 变体在零-shot 检索指标上更优，并在 ELEVATER ICinW 基准上获得有竞争力的零-shot 分类。
具有更大图像分辨率（如 336px）的 CN-CLIP 变体在检索性能上优于较小配置。
ICinW 基准的零-shot 分类相对于英文预训练和中文基线表现具有竞争力，在若干数据集上取得显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。