[论文解读] Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark
这篇论文发布了 Wukong,一个100M的中文图文数据集及其配套的 VLP 模型和基准,用以推动面向零样本分类和图文检索的中文跨模态预训练与评估。
Vision-Language Pre-training (VLP) models have shown remarkable performance on various downstream tasks. Their success heavily relies on the scale of pre-trained cross-modal datasets. However, the lack of large-scale datasets and benchmarks in Chinese hinders the development of Chinese VLP models and broader multilingual applications. In this work, we release a large-scale Chinese cross-modal dataset named Wukong, which contains 100 million Chinese image-text pairs collected from the web. Wukong aims to benchmark different multi-modal pre-training methods to facilitate the VLP research and community development. Furthermore, we release a group of models pre-trained with various image encoders (ViT-B/ViT-L/SwinT) and also apply advanced pre-training techniques into VLP such as locked-image text tuning, token-wise similarity in contrastive learning, and reduced-token interaction. Extensive experiments and a benchmarking of different downstream tasks including a new largest human-verified image-text test dataset are also provided. Experiments show that Wukong can serve as a promising Chinese pre-training dataset and benchmark for different cross-modal learning methods. For the zero-shot image classification task on 10 datasets, $Wukong_{ViT-L}$ achieves an average accuracy of 73.03%. For the image-text retrieval task, it achieves a mean recall of 71.6% on AIC-ICC which is 12.9% higher than WenLan 2.0. Also, our Wukong models are benchmarked on downstream tasks with other variants on multiple datasets, e.g., Flickr8K-CN, Flickr-30K-CN, COCO-CN, et al. More information can be referred to: https://wukong-dataset.github.io/wukong-dataset/.
研究动机与目标
- 通过提供公开的100M中文图文数据集(Wukong)从网络收集,激发并实现大规模中文视觉语言预训练。
- 建立一个全面的基准套件,包括测试集(Wukong-Test)和多个面向中文VLP模型的下游任务。
- 提供具备多样图像编码器和预训练技术的中文VLP预训练模型,便于公平比较。
- 研究在与中文文本编码器对齐时,用英语数据训练的图像编码器在跨语言泛化方面的表现。
- 展示Wukong数据集和模型在零样本分类和图文检索任务上的有效性。
提出的方法
- 使用高频中文词表(200K查询)和网页筛选构建100M对中文图文数据集(Wukong)。
- 使用CLIP/FILIP/LiT等启发式目标,训练具有图像编码器(ViT和Swin Transformer)和文本编码器的双流VLP模型。
- 应用全局(CLIP风格)与逐标记(FILIP风格)的跨模态相似性,以及一种简化标记交互变体(Wukong风格)。
- 引入标记减少层以实现高效的逐标记交互。
- 采用 locked-image text tuning(LiT风格)将预训练的英文图像编码器与中文文本编码器对齐。
- 用WordPiece进行中文分词(字符感知),并通过筛选和隐私保护替换来预处理文本。
- 在10个数据集上进行零样本图像分类评估,并在多个中文基准上进行图像-文本检索评估。
实验结果
研究问题
- RQ1大规模中文视觉语言数据集如何影响在多样化任务中的零样本分类和检索性能?
- RQ2不同跨模态相似性策略(全局 vs 逐标记)和标记减少对中文VLP性能的影响是什么?
- RQ3将英文预训练的图像编码器与中文文本编码器配对是否能改善跨模态对齐?
- RQ4字符级分词与词级分词在中文VLP模型中的表现有何差异?
- RQ5Wukong-Test基准在评估中文图文一致性方面的质量与实用性如何?
主要发现
- Wukong ViT-L 在10个数据集上的平均零样本前1准确率为73.03%。
- Wukong ViT-L在AIC-ICC的图文检索上达到71.6%的平均召回率,比WenLan 2.0高出12.9%。
- Wukong模型在Flickr8K-CN、Flickr30K-CN、COCO-CN等下游中文数据集上展现出强劲的零样本和检索性能。
- 结合标记减少的逐标记相似性(Wukong风格)在不同编码器之间提供高效且具竞争力的跨模态对齐。
- 他们的发现表明字符粒度的分词优于词语级分词。
- Wukong数据集展示了作为大规模中文VLP预训练资源与基准的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。