[论文解读] M6: A Chinese Multimodal Pretrainer
论文介绍了 M6,这是一个大规模的中文多模态预训练框架,拥有 M6-Corpus 数据集(1.9TB 图像,292GB 文本)和模型规模扩展至 10B 和 100B 参数,在跨模态任务和文本到图像生成方面取得了显著的表现。
In this work, we construct the largest dataset for multimodal pretraining in Chinese, which consists of over 1.9TB images and 292GB texts that cover a wide range of domains. We propose a cross-modal pretraining method called M6, referring to Multi-Modality to Multi-Modality Multitask Mega-transformer, for unified pretraining on the data of single modality and multiple modalities. We scale the model size up to 10 billion and 100 billion parameters, and build the largest pretrained model in Chinese. We apply the model to a series of downstream applications, and demonstrate its outstanding performance in comparison with strong baselines. Furthermore, we specifically design a downstream task of text-guided image generation, and show that the finetuned M6 can create high-quality images with high resolution and abundant details.
研究动机与目标
- 构建覆盖多领域的最大中文多模态预训练数据集(M6-Corpus)。
- 开发一个统一的多模态 Transformer(M6),能够进行单模态与跨模态的理解与生成。
- 将模型扩展至 10B 和 100B 参数,并优化训练效率。
- 展示下游能力,包括 VQA、图像描述、跨模态检索,以及文本到图像生成等。
提出的方法
- 从多样化来源(百科、爬取的网页、论坛、电子商务等)创建拥有超过 1.9TB 图像和 292GB 文本的 M6-Corpus。
- 提出 M6,一款具备视觉与语言输入以及模态特定分段嵌入的统一 Transformer。
- 通过多任务目标进行预训练:文本到文本传输(去噪与语言建模)、图像到文本传输(描述生成)、多模态到文本传输。
- 使用 dense 与 Mixture-of-Experts (MoE) 架构扩展到 M6-10B 与 M6-100B,并采用混合精度、激活检查点以及自研框架 Whale 等训练优化方法。
实验结果
研究问题
- RQ1一个在大规模、多样化数据集上预训练的单一中文大模型,能否在跨域任务上实现强大的跨模态性能?
- RQ2扩展规模和架构(dense 与 MoE)如何影响跨模态目标的性能与训练效率?
- RQ3模型是否能在文本引导的图像生成及其他生成任务上提供支持,而不仅仅是常规的检索/分类?
主要发现
- M6-10B 与 M6-100B 在多模态任务上超越强基线,例如 VQA 提升 +11.8%、图像描述提升 +18.4%、图像-文本匹配提升 +10.3%。
- M6 通过一个两阶段框架实现高质量的文本到图像生成,利用离散图像编码和自回归文本编码建模。
- M6-100B(MoE)在收敛速度上优于稠密的 100B 风格模型,达到较低的负对数困惑度,相较于某些对比在 -2.297 的负对数困惑度(M6-100B)与 -2.253(M6-10B)之间的对比。
- 在 E-Commerce ITM 上,M6-base 的准确率为 90.2,领先 InterBert 10.3%(81.8)。
- 在 E-Commerce IC 图像描述上,M6-base 相较基线在正确性和丰富性方面有显著提升,M6-10B 进一步提升了指标。
- FMIQA 结果显示,预训练的 M6-base 整体准确率达 71.0(基线 66.8,提升 +4.2),而 M6-10B 达到 74.7(提升 +7.9)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。