[论文解读] ZEN 2.0: Continue Training and Adaption for N-gram Enhanced Text Encoders
ZEN 2.0 通过细化 n-gram 表示、应用整段 n-gram 掩码,以及使用相对位置编码来扩展;在大量数据下可扩展到中文和阿拉伯语,并在多项 NLP 任务上达到最先进的结果。
Pre-trained text encoders have drawn sustaining attention in natural language processing (NLP) and shown their capability in obtaining promising results in different tasks. Recent studies illustrated that external self-supervised signals (or knowledge extracted by unsupervised learning, such as n-grams) are beneficial to provide useful semantic evidence for understanding languages such as Chinese, so as to improve the performance on various downstream tasks accordingly. To further enhance the encoders, in this paper, we propose to pre-train n-gram-enhanced encoders with a large volume of data and advanced techniques for training. Moreover, we try to extend the encoder to different languages as well as different domains, where it is confirmed that the same architecture is applicable to these varying circumstances and new state-of-the-art performance is observed from a long list of NLP tasks across languages and domains.
研究动机与目标
- 通过在显式 n-gram 信息的引入下改善基于字符的编码器,以捕捉更大粒度的语义。
- 提出 ZEN-2.0 的改进——加权 n-gram 表示、整段 n-gram 掩码,以及相对位置编码,以在扩大模型规模时提升学习效果。
- 通过将增强后的 ZEN 应用于中文和阿拉伯语并在广泛的 NLP 任务上进行评估来证明泛化能力。
- 提供关于训练步骤、n-gram 加权、掩码策略和编码选择的实证分析,以理解它们对性能和训练效率的影响。
提出的方法
- 将 ZEN 扩展为 ZEN-2.0,达到 BERT-large 规模并引入独立的 n-gram 编码器。
- 通过在将每个 n-gram 融入字符编码器时根据语料频率对其进行加权,来细化 n-gram 表示。
- 通过对完整 n-gram(由现成的分词器构建)进行掩码,而非对单个字符进行掩码,来实现整段 n-gram 掩码。
- 为字符编码器采用相对位置编码,以建模注意力中的距离与方向,并具有可训练的投影。
- 在大规模中文和阿拉伯语语言数据上进行训练,使用 MLM 和 NSP 目标,结合基于 PMI 的 n-gram 词典提取,以及两模型设置(字符编码器和 n-gram 编码器)。
- 在中文和阿拉伯语上对多项 NLP 基准任务进行微调,以评估 CWS、POS、NER、DC、SA、SPM、NLI、MRC、QA(中文)以及 POS、NER、DC、SA、NLI、MRC(阿拉伯语)。
实验结果
研究问题
- RQ1当继续训练并扩大模型规模时,n-gram 表示仍然有用吗?
- RQ2如加权 n-gram 表示、整段 n-gram 掩码和相对位置编码等改进,是否能在跨语言中提升 ZEN 的性能?
- RQ3带有 n-gram 增强的 ZEN 架构在中文之外的语言(如阿拉伯语)上是否同样有效?
- RQ4训练步骤、掩码策略和编码选择如何影响预训练效果和下游性能?
主要发现
- ZEN-2.0 在九个中文 NLP 任务上,对基础和大规模变体均达到新的状态最优。
- ZEN-2.0 在评估任务上优于此前的中文编码器和 ZEN 1.0。
- ZEN-2.0 也在阿拉伯语任务上超越基线,展示了 n-gram 改进的跨语言泛化能力。
- 改进的加权 n-gram 表示和整段 n-gram 掩码有助于提升表示质量和训练效率。
- 相对位置编码带来额外收益,特别是在阿拉伯语的 NER 和其他任务上。
- 一个案例研究和定性分析表明,ZEN-2.0 的 n-gram 表示能够对语义相关短语进行聚类,体现信息的有意义粒度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。