Skip to main content
QUICK REVIEW

[论文解读] Portuguese Named Entity Recognition using BERT-CRF

Fábio Souza, Rodrigo Nogueira|arXiv (Cornell University)|Sep 23, 2019
Topic Modeling参考文献 26被引用 180
一句话总结

该论文使用 Portuguese BERT 模型并采用 BERT-CRF 架构进行 NER,在 HAREM I 上取得了最先进的结果,尤其是在总实体类别场景下实现了显著的 F1 提升。

ABSTRACT

Recent advances in language representation using neural networks have made it viable to transfer the learned internal states of a trained model to downstream natural language processing tasks, such as named entity recognition (NER) and question answering. It has been shown that the leverage of pre-trained language models improves the overall performance on many tasks and is highly beneficial when labeled data is scarce. In this work, we train Portuguese BERT models and employ a BERT-CRF architecture to the NER task on the Portuguese language, combining the transfer capabilities of BERT with the structured predictions of CRF. We explore feature-based and fine-tuning training strategies for the BERT model. Our fine-tuning approach obtains new state-of-the-art results on the HAREM I dataset, improving the F1-score by 1 point on the selective scenario (5 NE classes) and by 4 points on the total scenario (10 NE classes).

研究动机与目标

  • 通过预训练语言模型提升葡萄牙语 NER 的性能,以应对标注数据稀缺的问题。
  • 评估在不同迁移学习策略下,基于 BERT 的表示在葡萄牙语 NER 上的表现。
  • 评估在 BERT 顶部加入 CRF 层以及基于跨度的上下文处理对 NER 准确性的影响。
  • 提供可重复的葡萄牙语 NER 模型与代码以促进基准测试。

提出的方法

  • 在大型葡萄牙语语料库 brWaC 上训练葡萄牙语 BERT 变体(BASE 和 LARGE),使用 WordPiece/SentencePiece 词汇。
  • 构建一个 BERT-CRF 架构,包含一个分词级分类器和一个线性链 CRF 进行序列标注。
  • 研究特征基(冻结的 BERT 与 BiLSTM 以及 CRF 分类器)对比微调(联合训练 BERT 与分类器/CRF)的迁移学习策略。
  • 通过将长文档拆分为重叠的跨度并设定步长来处理;每个标记从上下文最丰富的跨度中选取最终标签。
  • 预处理 HAREM 数据以解决 ALT 标签和多类别实体的 IOB2 标记。
  • 与 HAREM First/ MiniHAREM 数据集上的此前 NER 基线使用 CoNLL 2003 评估进行比较。

实验结果

研究问题

  • RQ1葡萄牙语的 BERT-CRF 是否在 HAREM I(First HAREM 与 MiniHAREM)上超越前人状态最优的 NER 系统?
  • RQ2在葡萄牙语 NER 的 BERT 任务中,特征基与微调的迁移策略表现有何差异?
  • RQ3在葡萄牙语 NER 中,在 BERT 顶部加入 CRF 层的影响是什么?
  • RQ4基于跨度的最大上下文评估如何影响标记级预测?
  • RQ5模型规模(BASE vs LARGE)对葡萄牙语 NER 的性能有何影响?

主要发现

架构总精确度总召回率总 F1选择性精确度选择性召回率选择性 F1
CharWNN (Santos & Guimaraes, 2015)"67.16""63.74""65.41""73.98""68.68""71.23"
LSTM-CRF (Castro et al., 2018)"72.78""68.03""70.33""78.26""74.39""76.27"
BiLSTM-CRF+FlairBBP (Santos et al., 2019a)"74.91""74.37""74.64""83.38""81.17""82.26"
ML-BERT BASE-LSTM †"69.68""69.51""69.59""75.59""77.13""76.35"
ML-BERT BASE-LSTM-CRF †"74.70""69.74""72.14""80.66""75.06""77.76"
ML-BERT BASE"72.97""73.78""73.37""77.35""79.16""78.25"
ML-BERT BASE-CRF"74.82""73.49""74.15""80.10""78.78""79.44"
PT-BERT BASE-LSTM †"75.00""73.61""74.30""79.88""80.29""80.09"
PT-BERT BASE-LSTM-CRF †"78.33""73.23""75.69""84.58""78.72""81.66"
PT-BERT BASE"78.36""77.62""77.98""83.22""82.85""83.03"
PT-BERT BASE-CRF"78.60""76.89""77.73""83.89""81.50""82.68"
PT-BERT LARGE-LSTM †"72.96""72.05""72.50""78.13""78.93""78.53"
PT-BERT LARGE-LSTM-CRF †"77.45""72.43""74.86""83.08""77.83""80.37"
PT-BERT LARGE"78.45""77.40""77.92""83.45""83.15""83.30"
PT-BERT LARGE-CRF"80.08""77.31""78.67""84.82""81.72""83.24"
  • PT-BERT BASE 与 LARGE 结合 CRF 在 MiniHAREM 上取得最先进的结果,并显著超越前人方法的 F1。
  • 微调通常在该任务中优于特征基方法。
  • CRF 集成通常提升精确度,但有时会降低召回率,经过对无效 IOB2 转换的后处理可带来 ~1–2 点的 F1 提升。
  • 相比于英语 NER 的趋势,葡萄牙语 BERT 模型在非 CRF 基线上的性能提升显著(在总场景中相对于 LSTM-CRF 的提升约为 ~8.3 点)。
  • 大型葡萄牙语 BERT 在总体实体类别场景中提供最佳整体结果,尽管在选择性场景下相对于 BASE 的增益可能较小,因为数据集规模有限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。