[论文解读] WikiBERT models: deep transfer learning for many languages
本文提出了一套完全自动化的流水线,基于维基百科数据为42种低资源和中等资源语言训练了全新的、语言特定的BERT模型——WikiBERT。在通用依存句法分析任务上的评估显示,WikiBERT模型平均性能优于mBERT(86.6% vs. 86.1% LAS),部分语言如芬兰语表现显著提升,而白俄罗斯语则出现下降,表明在1亿至10亿token的预训练数据量范围内存在性能的“最佳区间”。
Deep neural language models such as BERT have enabled substantial recent advances in many natural language processing tasks. Due to the effort and computational cost involved in their pre-training, language-specific models are typically introduced only for a small number of high-resource languages such as English. While multilingual models covering large numbers of languages are available, recent work suggests monolingual training can produce better models, and our understanding of the tradeoffs between mono- and multilingual training is incomplete. In this paper, we introduce a simple, fully automated pipeline for creating language-specific BERT models from Wikipedia data and introduce 42 new such models, most for languages up to now lacking dedicated deep neural language models. We assess the merits of these models using the state-of-the-art UDify parser on Universal Dependencies data, contrasting performance with results using the multilingual BERT model. We find that UDify using WikiBERT models outperforms the parser using mBERT on average, with the language-specific models showing substantially improved performance for some languages, yet limited improvement or a decrease in performance for others. We also present preliminary results as first steps toward an understanding of the conditions under which language-specific models are most beneficial. All of the methods and models introduced in this work are available under open licenses from https://github.com/turkunlp/wikibert.
研究动机与目标
- 解决许多低资源和中等资源语言缺乏高质量、专用语言特定BERT模型的问题。
- 开发一种完全自动化、可扩展的流水线,仅使用维基百科数据创建此类模型。
- 在多语言依存句法分析基准上,评估这些模型相对于多语言BERT(mBERT)基线的性能表现。
- 探究单语预训练相较于多语言预训练在何种条件下能带来更好的性能。
- 将模型和流水线以开放许可证发布,以支持更广泛的自然语言处理研究与开发。
提出的方法
- 作者创建了一套完全自动化的流水线,用于从309种语言的维基百科转储文件中提取、预处理并分词。
- 语言特定的BERT模型仅在维基百科文本上进行预训练,排除了已消亡或非活跃使用的语言。
- 预训练过程采用标准BERT目标:掩码语言建模和下一句预测。
- 使用UDify依存句法分析器在通用依存句法树库上对模型进行微调和评估。
- 在42种语言上对比mBERT与WikiBERT初始化的性能表现,以LAS(标注依存分数)为主要指标。
- 分析重点集中在性能变化的相对差异,以及与预训练数据量和语言家族关系的相关性。
实验结果
研究问题
- RQ1在维基百科数据上训练语言特定的BERT模型是否能带来相较于mBERT等多语言模型的性能提升?
- RQ2预训练数据量对语言特定模型性能提升的影响如何?
- RQ3语言之间的语言关系和语言家族归属如何影响单语与多语言模型的相对性能?
- RQ4是否存在特定的语言特征或阈值(如数据量、类型学特征)决定单语模型何时优于多语言模型?
- RQ5完全自动化的流水线能否可靠地为广泛语言生成高质量的语言特定BERT模型?
主要发现
- 平均而言,使用WikiBERT模型初始化的UDify在LAS上达到86.6%,略高于mBERT的86.1%。
- 将mBERT替换为WikiBERT后,相对误差减少约4%,表明性能有可测量的提升。
- 芬兰语的性能提升最大,其LAS误差相比mBERT相对降低了10%以上。
- 白俄罗斯语的性能下降最为显著,表明与高资源语言的语系接近性并不能保证单语预训练带来收益。
- 在1亿至10亿token的预训练数据量范围内,出现了一个潜在的性能“最佳区间”,此时相比mBERT的性能增益最为明显。
- 对于英语(数据丰富且属于日耳曼语系),mBERT与WikiBERT的性能几乎相同,表明在高资源环境下单语预训练并无优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。