Skip to main content
QUICK REVIEW

[论文解读] Multilingual is not enough: BERT for Finnish

Antti Virtanen, Jenna Kanerva|arXiv (Cornell University)|Dec 15, 2019
Topic Modeling参考文献 45被引用 121
一句话总结

该论文评估多语言 BERT(M-BERT)与从零开始训练的芬兰特定 BERT(FinBERT),结果显示 FinBERT 在芬兰语 POS 标注、NER 和依存句法分析等任务上始终优于 M-BERT,并实现了新的最先进结果。研究还考察下游文本分类和探针任务,以刻画语言特异性收益与数据域效应。

ABSTRACT

Deep learning-based language models pretrained on large unannotated text corpora have been demonstrated to allow efficient transfer learning for natural language processing, with recent approaches such as the transformer-based BERT model advancing the state of the art across a variety of tasks. While most work on these models has focused on high-resource languages, in particular English, a number of recent efforts have introduced multilingual models that can be fine-tuned to address tasks in a large number of different languages. However, we still lack a thorough understanding of the capabilities of these models, in particular for lower-resourced languages. In this paper, we focus on Finnish and thoroughly evaluate the multilingual BERT model on a range of tasks, comparing it with a new Finnish BERT model trained from scratch. The new language-specific model is shown to systematically and clearly outperform the multilingual. While the multilingual model largely fails to reach the performance of previously proposed methods, the custom Finnish BERT model establishes new state-of-the-art results on all corpora for all reference tasks: part-of-speech tagging, named entity recognition, and dependency parsing. We release the model and all related resources created for this study with open licenses at https://turkunlp.org/finbert .

研究动机与目标

  • 评估多语言 BERT(M-BERT)在芬兰语 NLP 任务上的有效性。
  • 从头开始开发并预训练芬兰特定的 BERT(FinBERT)。
  • 系统性比较 FinBERT 与 M-BERT 在 POS 标注、NER 和依存句法分析上的表现。
  • 在文本分类和探针任务上评估 FinBERT 与 M-BERT。
  • 开放发布 FinBERT 及相关资源供研究使用。

提出的方法

  • 从包含新闻、讨论、爬虫数据和维基百科的大量筛选芬兰语语料中,预训练 FinBERT(区分大小写和不区分大小写,参数量 110M)。
  • 使用清洗数据构建专门的芬兰语词汇表(50k 词),对大小写版本均采用 BPE。
  • 在每种模型变体上进行 1M 步训练,序列长度为 128 和 512,使用带暖起的 LAMB 优化器;在 8× Nvidia V100 GPU 上大约每个模型 12 天。
  • 在芬兰语数据集上对 FinBERT 与 M-BERT 进行微调,覆盖 POS 标注、NER、依存句法分析和文本分类,使用学习率和训练轮数的网格搜索。
  • 使用 UD 芬兰语语料库(TDT、FTB、PUD)进行 POS/Parsing,使用 FiNER 进行 NER;并与最新基线进行对比。

实验结果

研究问题

  • RQ1一个语言特异的芬兰语 BERT 是否在核心芬兰语 NLP 任务上优于多语言 BERT?
  • RQ2FinBERT 在 POS 标注、NER 和依存句法分析方面相对 M-BERT 和现有方法的提升程度如何?
  • RQ3FinBERT 在不同数据规模的芬兰语文本分类和探针任务上的表现如何?
  • RQ4分词词汇表与大小写对芬兰语 BERT 的性能有何影响?
  • RQ5预训练数据与评估数据在领域匹配对模型性能有何影响?

主要发现

  • FinBERT 在三个核心任务(POS 标注、NER、依存句法分析)上对所有芬兰语语料库均优于 M-BERT 与现有方法。
  • 在 POS 标注方面,FinBERT(区分大小写)较最佳 CoNLL’18 结果提升最多 1.7 点;不区分大小写的 FinBERT 在若干情况下也具有竞争力。
  • 在 NER 方面,FinBERT(两种变体)在同领域优于 M-BERT 与 FiNER-tagger;FinBERT 区分大小写在领域内的 F1 达到 81.47;FinBERT 在领域外也优于 M-BERT。
  • 在依存句法分析上,Udify 与 FinBERT 在所有三个芬兰树库上实现了最先进的 LAS,相较于此前最佳提升 2.3–3.6 点;通常区分大小写的 FinBERT 优于不区分大小写。
  • 对于文本分类,FinBERT 优于 M-BERT,尤其在小规模训练集的情况下;领域不匹配(新闻 vs 讨论)影响增益,FinBERT 从与非正式芬兰语匹配的预训练数据中获益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。