[论文解读] Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning
Yuan 1.0 是一个245B的单例语言模型,在大规模分布式训练下训练,具备强零-shot和少样本表现,得益于5TB高质量中文语料库以及校准/标签扩展技术。
Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot and Few-Shot learning on many natural language processing (NLP) tasks by scaling up model size, dataset size and the amount of computation. However, training a model like GPT-3 requires huge amount of computational resources which makes it challengeable to researchers. In this work, we propose a method that incorporates large-scale distributed training performance into model architecture design. With this method, Yuan 1.0, the current largest singleton language model with 245B parameters, achieves excellent performance on thousands GPUs during training, and the state-of-the-art results on NLP tasks. A data processing method is designed to efficiently filter massive amount of raw data. The current largest high-quality Chinese corpus with 5TB high quality texts is built based on this method. In addition, a calibration and label expansion method is proposed to improve the Zero-Shot and Few-Shot performance, and steady improvement is observed on the accuracy of various tasks. Yuan 1.0 presents strong capacity of natural language generation, and the generated articles are difficult to distinguish from the human-written ones.
研究动机与目标
- 证明大规模分布式训练可以整合到模型结构中,以实现245B单例语言模型。
- 构建并使用5TB高质量中文语料库用于预训练,数据采样不妥协。
- 研究架构设计、预训练与零-shot/少样本表现如何交互,并引入校准/标签扩展以提升零-shot与少样本结果。
提出的方法
- 采用三维并行(张量、流水线、数据)在数千张GPU上训练245B参数模型。
- 比较语言模型(LM)与前缀语言模型(PLM)架构并分析它们的零-shot与少样本行为。
- 开发一个 Massive Data Filtering System(MDFS)从多样化来源构建5TB高质量中文语料库。
- 应用校准和标签扩展以缓解零-shot和少样本任务中的上下文学习偏差。
实验结果
研究问题
- RQ1如何协调模型架构和分布式训练设计,以高效训练极大规模的单例语言模型?
- RQ2哪些数据处理与筛选策略能产生适用于预训练的5TB高质量中文语料库?
- RQ3LM 与 PLM 架构在零-shot与少样本设置中的表现如何,如何通过校准改进这些结果?
- RQ4在CLUE类任务上,校准和标签扩展在零-shot/文本提示性能方面能提升到多大程度?
主要发现
- Yuan 1.0 是一个245B参数的单例模型,在数千张GPU上训练,在2128-GPU集群上达到理论峰值的45%的稳定性能。
- 5TB高质量中文语料库使预训练无需对数据集再采样,规模超过若干大型中文语料库。
- 校准和标签扩展显著提升在选定任务(如 Eprstmt、Tnews、Csldcp)的零-shot准确度,并减少标签分布中的偏差。
- 在零-shot 中,LM 与 PLM 变体实现了强上下文学习,常常超越在若干 ZeroCLUE 任务的SOTA;在少样本中,校准有帮助但大类数在某些数据集上可能抑制增益。
- Yuan 245B 展示出与同代竞争者相比具有竞争力或更优的生成和问答能力,且在 WebQA 和 CMRC2018 等任务上呈现显著的零-shot生成性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。