QUICK REVIEW

[论文解读] Towards Lingua Franca Named Entity Recognition with BERT

Taesun Moon, Parul Aswathy|arXiv (Cornell University)|Nov 19, 2019

Topic Modeling参考文献 16被引用 27

一句话总结

本文提出一种基于多语言 BERT 的命名实体识别（NER）模型，通过在多种语言上联合训练，实现了 CoNLL 荷兰语和西班牙语、以及 OntoNotes 阿拉伯语和中文数据集上的最先进性能。结果表明，联合训练可提升未见语言的零样本推理性能，相比单语基线模型，F1 分数最高提升 17.8 分，同时保持单一模型架构，使各语言的推理成本保持一致。

ABSTRACT

Information extraction is an important task in NLP, enabling the automatic extraction of data for relational database filling. Historically, research and data was produced for English text, followed in subsequent years by datasets in Arabic, Chinese (ACE/OntoNotes), Dutch, Spanish, German (CoNLL evaluations), and many others. The natural tendency has been to treat each language as a different dataset and build optimized models for each. In this paper we investigate a single Named Entity Recognition model, based on a multilingual BERT, that is trained jointly on many languages simultaneously, and is able to decode these languages with better accuracy than models trained only on one language. To improve the initial model, we study the use of regularization strategies such as multitask learning and partial gradient updates. In addition to being a single model that can tackle multiple languages (including code switch), the model could be used to make zero-shot predictions on a new language, even ones for which training data is not available, out of the box. The results show that this model not only performs competitively with monolingual models, but it also achieves state-of-the-art results on the CoNLL02 Dutch and Spanish datasets, OntoNotes Arabic and Chinese datasets. Moreover, it performs reasonably well on unseen languages, achieving state-of-the-art for zero-shot on three CoNLL languages.

研究动机与目标

探究通过在多种语言上联合训练，单一多语言 NER 模型是否能超越单语模型。
评估正则化技术（如多任务学习和部分梯度更新）在提升多语言 NER 性能方面的有效性。
通过在部分语言上微调单一模型，实现在未见语言上的零样本 NER。
通过在多种语言上使用统一架构，简化模型的部署与维护。
通过引入填空预测和语言识别等辅助任务，提升泛化能力和零样本迁移性能。

提出的方法

在英语、德语、西班牙语和荷兰语 CoNLL 数据集的联合 NER 标注数据上微调多语言 BERT base 模型。
通过在微调过程中冻结不同数量的 BERT 层，实施部分梯度更新，以控制过拟合并提升泛化能力。
引入辅助任务——填空预测、语言识别（LI）和预测性填空（PC），在训练期间提供间接正则化。
将长序列分割为长度为 64 的重叠块，以在使用对内存要求较高的填空任务时保留训练数据。
填空任务采用 0.15 的掩码概率，与原始 BERT 论文保持一致。
基于开发集上五次随机种子的平均 F1 分数，为每种语言选择最佳模型。

实验结果

研究问题

RQ1通过在多种语言上联合训练，单一多语言 NER 模型是否能实现优于单语模型的性能？
RQ2引入填空预测和语言识别等辅助任务是否能提升零样本 NER 性能？
RQ3在一种语言（如英语）上微调的模型，能在多大程度上泛化到未见语言（如德语、西班牙语和荷兰语）的零样本推理？
RQ4部分梯度更新（冻结 BERT 层）对不同语言的模型性能有何影响？
RQ5同一模型架构是否能在包括使用不同书写系统和语言家族的多种语言上实现最先进性能？

主要发现

该多语言模型在 CoNLL 荷兰语（78.61）和西班牙语（73.62）上达到最先进 F1 分数，优于单语基线模型。
在 OntoNotes 上，该模型在阿拉伯语和中文 NER 任务中也达到最先进结果，证明了跨语言泛化能力。
仅在英语上微调的模型，在德语上实现 77.05 的零样本 F1 分数，荷兰语为 79.28，西班牙语为 73.34，相比基线零样本模型最高提升 17.8 F1 分。
在微调过程中冻结 3 层可使英语模型在零样本推理中达到最佳性能，对所有零样本语言的 F1 分数提升达 2.4 至 17.8 不等。
使用辅助任务（如 LI 和 PC）可提升德语和荷兰语的性能，其中 CL+LI 对德语有益，LI 对荷兰语有益。
该模型在所有语言上保持一致的推理成本（内存/CPU/GPU），简化了部署和生命周期管理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。