Skip to main content
QUICK REVIEW

[论文解读] Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese

Zhuosheng Zhang, Hanqing Zhang|arXiv (Cornell University)|Oct 13, 2021
Topic Modeling参考文献 42被引用 30
一句话总结

Mengzi 是一组103M参数的中文预训练模型家族(判别式、生成式、金融领域以及多模态变体),通过精心设计的轻量化预训练和微调策略在 CLUE 上取得强劲结果,且不改变模型架构。

ABSTRACT

Although pre-trained models (PLMs) have achieved remarkable improvements in a wide range of NLP tasks, they are expensive in terms of time and resources. This calls for the study of training more efficient models with less computation but still ensures impressive performance. Instead of pursuing a larger scale, we are committed to developing lightweight yet more powerful models trained with equal or less computation and friendly to rapid deployment. This technical report releases our pre-trained model called Mengzi, which stands for a family of discriminative, generative, domain-specific, and multimodal pre-trained model variants, capable of a wide range of language and vision tasks. Compared with public Chinese PLMs, Mengzi is simple but more powerful. Our lightweight model has achieved new state-of-the-art results on the widely-used CLUE benchmark with our optimized pre-training and fine-tuning techniques. Without modifying the model architecture, our model can be easily employed as an alternative to existing PLMs. Our sources are available at https://github.com/Langboat/Mengzi.

研究动机与目标

  • 推动高效、轻量级的中文预训练模型,所需计算量与更大模型相等或更少。
  • 设计并评估在不增加模型规模的前提下提升能力的预训练目标和优化策略。
  • 发布一系列 Mengzi 模型(判别式、生成式、领域特定、多模态),易于部署。
  • 展示在中文语言理解与生成任务上的强性能。

提出的方法

  • 主干为基于 RoBERTa 的 Mengzi,12 层,768 隐藏维度,103M 参数(Mengzi-BERT-base)。
  • 预训练使用掩码语言建模(MLM),词汇表大小为 21,128,基于 300GB 的中文语料库(维基百科、新闻、Common Crawl)。
  • 两阶段混合批次预训练,使用 LAMB 优化器;前 9/10 轮次序列长度为 128,后 1/10 轮次长度为 512;批量大小为 16384 和 32768。
  • 融入语言学驱动的目标(POS/NE 序列标注)和句子顺序预测(SOP),以提升表示能力。
  • 引入动态梯度校正以稳定并提升训练效率。
  • 微调探索知识蒸馏、迁移学习、选择平滑、对抗训练和数据增强等策略。

实验结果

研究问题

  • RQ1在不改变架构的前提下,通过优化预训练目标和训练过程,103M 参数的中文预训练语言模型是否能超越更大模型?
  • RQ2语言学驱动的目标和训练动态是否显著提升在中文 GLUE 类任务和 MRC 基准上的表现?
  • RQ3下游微调策略(蒸馏、迁移学习、平滑、对抗、数据增强)如何影响跨任务的表现?
  • RQ4Mengzi 变体(判别式、生成式、金融领域、多模态)在实际中文 NLP 任务中的实际影响及部署难易度如何?

主要发现

  • Mengzi 在 CLUE 基准上取得强劲结果,在同等规模的基线模型上甚至在某些设置中超越了更大的中文模型。
  • 一个103M 的 Mengzi-BERT-base 变体在多个 CLUE 子任务上相对于 BERT 和 RoBERTa 基线取得改进。
  • 语言驱动的训练目标和动态梯度校正为预训练阶段带来显著的性能提升。
  • 微调技术如知识蒸馏、迁移学习、选择平滑、对抗训练和数据增强在下游任务上带来额外的准确性提升。
  • Mengzi 的发行包括 Mengzi-BERT-base、Mengzi-BERT-base-fin、Mengzi-T5-base 和 Mengzi-Oscar-base,使文本、生成、金融领域和多模态能力成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。