QUICK REVIEW

[论文解读] BERTje: A Dutch BERT Model

Wietse de Vries, Andreas van Cranenburgh|arXiv (Cornell University)|Dec 19, 2019

Topic Modeling参考文献 21被引用 214

一句话总结

BERTje 是一个单语荷兰语 BERT 模型，在多样化的荷兰语文本源上训练，在荷兰 NLP 任务如 NER、POS 标注、SRL、STR 和情感分析方面始终优于多语言 BERT。

ABSTRACT

The transformer-based pre-trained language model BERT has helped to improve state-of-the-art performance on many natural language processing (NLP) tasks. Using the same architecture and parameters, we developed and evaluated a monolingual Dutch BERT model called BERTje. Compared to the multilingual BERT model, which includes Dutch but is only based on Wikipedia text, BERTje is based on a large and diverse dataset of 2.4 billion tokens. BERTje consistently outperforms the equally-sized multilingual BERT model on downstream NLP tasks (part-of-speech tagging, named-entity recognition, semantic role labeling, and sentiment analysis). Our pre-trained Dutch BERT model is made available at https://github.com/wietsedv/bertje.

研究动机与目标

说明需要一个高质量的单语荷兰语 BERT 模型，超越多语言 BERT。
在多样化、大型荷兰语数据上构建并预训练一个荷兰语 BERT-base 模型。
在一组荷兰语 NLP 任务上评估 BERTje，以与多语言 BERT 进行比较。
分析预训练迭代次数如何影响低级和高级语言任务的性能。

提出的方法

使用带有 12 个 transformer 块的 BERT-base 架构（BERT-base）。
组装一个多样化的荷兰语预训练语料，总量约 ~12GB/2.4B tokens，来自书籍、TwNC、SoNaR-500、网页新闻和维基百科（并移除重复部分）。
通过 SentencePiece 创建一个 30k WordPiece 词汇表，适配 WordPiece 格式。
使用 SOP 进行预训练（替代 NSP）和掩码语言建模，掩盖 15% 的标记，其中 80%→[MASK]，10%→random，10%→unchanged，连续的片段被掩码以覆盖完整单词。
在多项荷兰语 NLP 任务（NER、POS、SRL、STR、情感）上进行微调，并与多语言 BERT-base 进行比较。
在 850k 和 1M 次训练迭代时进行评估，以评估学习动态。

实验结果

研究问题

RQ1在多样化荷兰语数据上训练的单语荷兰语 BERT 模型，是否在荷兰特定任务上优于多语言 BERT？
RQ2预训练迭代次数（850k 与 1M）如何影响荷兰语中低级与高级语言任务的性能？
RQ3哪些荷兰语 NLP 任务最能从单语荷兰语 BERT 模型中受益？

主要发现

BERTje 在 CoNLL-2002 和 SoNaR-1 数据集的 NER 上都优于多语言 BERT（例如，在完整 BERTje 的测试上 NER F1 从 80.7 提升到 88.3）。
在 POS 标注方面，BERTje 在 Lassy Small 和 SoNaR-1（测试）数据集上的准确率高于多语言 BERT，最终结果大致在中高 96 左右。
在语义角色和时空关系方面，BERTje 高于多语言 BERT（SRL 与 STR），提升在 850k 检查点最为明显，1M 时仍有部分改善。
在荷兰语书评数据集的情感分析中，BERTje 接近或达到最先进的性能，且无需大规模超参数调优（完全训练的 BERTje 的测试达到 93.0%）。
850k 检查点通常与或接近完全训练的 BERTje 相符，表明在较早阶段编码了对若干任务有用的信息，而一些高级任务则受益于更长的预训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。