Skip to main content
QUICK REVIEW

[论文解读] NEZHA: Neural Contextualized Representation for Chinese Language Understanding

Victor Junqiu Wei, Xiaozhe Ren|arXiv (Cornell University)|Aug 31, 2019
Topic Modeling参考文献 18被引用 86
一句话总结

NEZHA 在大规模语料上对中文语言模型进行预训练,使用功能相对位置编码、Whole Word Masking、混合精度和 LAMB 优化器,在微调后在中文 NLU 任务上取得优异结果。

ABSTRACT

The pre-trained language models have achieved great successes in various natural language understanding (NLU) tasks due to its capacity to capture the deep contextualized information in text by pre-training on large-scale corpora. In this technical report, we present our practice of pre-training language models named NEZHA (NEural contextualiZed representation for CHinese lAnguage understanding) on Chinese corpora and finetuning for the Chinese NLU tasks. The current version of NEZHA is based on BERT with a collection of proven improvements, which include Functional Relative Positional Encoding as an effective positional encoding scheme, Whole Word Masking strategy, Mixed Precision Training and the LAMB Optimizer in training the models. The experimental results show that NEZHA achieves the state-of-the-art performances when finetuned on several representative Chinese tasks, including named entity recognition (People's Daily NER), sentence matching (LCQMC), Chinese sentiment classification (ChnSenti) and natural language inference (XNLI).

研究动机与目标

  • 研究超越 BERT 的中文语言模型的有效预训练策略。
  • 评估位置编码、遮蔽、数据源和序列长度对下游任务的影响。
  • 通过微调在多个中文 NLU 基准测试上展示最先进的性能。

提出的方法

  • 采用带有功能相对位置编码(FRPE)的 BERT 风格 Transformer 编码器作为核心位置编码方法。
  • 在中文词级遮罩上使用 Whole Word Masking (WWM) 以提升预训练信号。
  • 应用混合精度训练以加速训练并降低显存占用。
  • 利用 LAMB 优化器实现大批量训练和稳定收敛。
  • 在大规模中文语料库(Wikipedia、Baike、News)上从头训练 NEZHA 模型,并在下游任务中与 BERT 和基于 ERNIE 的模型进行比较。

实验结果

研究问题

  • RQ1功能相对位置编码(FRPE)是否能够在中文预训练模型中持续带来相对于绝对编码或其他相对编码的一致提升?
  • RQ2与标准遮罩相比,Whole Word Masking 对中文预训练模型有何影响?
  • RQ3训练数据源和序列长度如何影响预训练效果与下游性能?
  • RQ4在微调后,NEZHA 是否能在典型的中文 NLU 任务上达到最先进水平?
  • RQ5混合精度训练和 LAMB 优化在大规模预训练中的实际好处是什么?

主要发现

  • FRPE 在多个任务上持续优于 PAPE 和 PRPE 的表现,特别有助于像 CMRC 这样需要更长上下文的任务。
  • WWM 在多个中文 NLU 基准测试上带来可量化的提升,相对于标准遮罩。
  • 更长的训练序列和多样的数据源(Wikipedia、Baike、News)有助于获得更好的下游结果。
  • NEZHA-base 和 NEZHA-large 变体在微调后在 CMRC、XNLI、LCQMC、PD-NER、ChnSenti 等任务上达到最先进或强劲的结果。
  • 在消融实验中,FRPE 显示出显著优势,WWM、较长序列以及混合精度结合 LAMB 可以带来有利的性能和训练效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。