Skip to main content
QUICK REVIEW

[论文解读] BERTje: A Dutch BERT Model

Wietse de Vries, Andreas van Cranenburgh|arXiv (Cornell University)|Dec 19, 2019
Topic Modeling参考文献 21被引用 214
一句话总结

BERTje 是一个单语荷兰语 BERT 模型,在多样化的荷兰语文本源上训练,在荷兰 NLP 任务如 NER、POS 标注、SRL、STR 和情感分析方面始终优于多语言 BERT。

ABSTRACT

The transformer-based pre-trained language model BERT has helped to improve state-of-the-art performance on many natural language processing (NLP) tasks. Using the same architecture and parameters, we developed and evaluated a monolingual Dutch BERT model called BERTje. Compared to the multilingual BERT model, which includes Dutch but is only based on Wikipedia text, BERTje is based on a large and diverse dataset of 2.4 billion tokens. BERTje consistently outperforms the equally-sized multilingual BERT model on downstream NLP tasks (part-of-speech tagging, named-entity recognition, semantic role labeling, and sentiment analysis). Our pre-trained Dutch BERT model is made available at https://github.com/wietsedv/bertje.

研究动机与目标

  • 说明需要一个高质量的单语荷兰语 BERT 模型,超越多语言 BERT。
  • 在多样化、大型荷兰语数据上构建并预训练一个荷兰语 BERT-base 模型。
  • 在一组荷兰语 NLP 任务上评估 BERTje,以与多语言 BERT 进行比较。
  • 分析预训练迭代次数如何影响低级和高级语言任务的性能。

提出的方法

  • 使用带有 12 个 transformer 块的 BERT-base 架构(BERT-base)。
  • 组装一个多样化的荷兰语预训练语料,总量约 ~12GB/2.4B tokens,来自书籍、TwNC、SoNaR-500、网页新闻和维基百科(并移除重复部分)。
  • 通过 SentencePiece 创建一个 30k WordPiece 词汇表,适配 WordPiece 格式。
  • 使用 SOP 进行预训练(替代 NSP)和掩码语言建模,掩盖 15% 的标记,其中 80%→[MASK],10%→random,10%→unchanged,连续的片段被掩码以覆盖完整单词。
  • 在多项荷兰语 NLP 任务(NER、POS、SRL、STR、情感)上进行微调,并与多语言 BERT-base 进行比较。
  • 在 850k 和 1M 次训练迭代时进行评估,以评估学习动态。

实验结果

研究问题

  • RQ1在多样化荷兰语数据上训练的单语荷兰语 BERT 模型,是否在荷兰特定任务上优于多语言 BERT?
  • RQ2预训练迭代次数(850k 与 1M)如何影响荷兰语中低级与高级语言任务的性能?
  • RQ3哪些荷兰语 NLP 任务最能从单语荷兰语 BERT 模型中受益?

主要发现

  • BERTje 在 CoNLL-2002 和 SoNaR-1 数据集的 NER 上都优于多语言 BERT(例如,在完整 BERTje 的测试上 NER F1 从 80.7 提升到 88.3)。
  • 在 POS 标注方面,BERTje 在 Lassy Small 和 SoNaR-1(测试)数据集上的准确率高于多语言 BERT,最终结果大致在中高 96 左右。
  • 在语义角色和时空关系方面,BERTje 高于多语言 BERT(SRL 与 STR),提升在 850k 检查点最为明显,1M 时仍有部分改善。
  • 在荷兰语书评数据集的情感分析中,BERTje 接近或达到最先进的性能,且无需大规模超参数调优(完全训练的 BERTje 的测试达到 93.0%)。
  • 850k 检查点通常与或接近完全训练的 BERTje 相符,表明在较早阶段编码了对若干任务有用的信息,而一些高级任务则受益于更长的预训练。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。