QUICK REVIEW

[论文解读] Portuguese Named Entity Recognition using BERT-CRF

Fábio Souza, Rodrigo Nogueira|arXiv (Cornell University)|Sep 23, 2019

Topic Modeling参考文献 26被引用 180

一句话总结

该论文使用 Portuguese BERT 模型并采用 BERT-CRF 架构进行 NER，在 HAREM I 上取得了最先进的结果，尤其是在总实体类别场景下实现了显著的 F1 提升。

ABSTRACT

Recent advances in language representation using neural networks have made it viable to transfer the learned internal states of a trained model to downstream natural language processing tasks, such as named entity recognition (NER) and question answering. It has been shown that the leverage of pre-trained language models improves the overall performance on many tasks and is highly beneficial when labeled data is scarce. In this work, we train Portuguese BERT models and employ a BERT-CRF architecture to the NER task on the Portuguese language, combining the transfer capabilities of BERT with the structured predictions of CRF. We explore feature-based and fine-tuning training strategies for the BERT model. Our fine-tuning approach obtains new state-of-the-art results on the HAREM I dataset, improving the F1-score by 1 point on the selective scenario (5 NE classes) and by 4 points on the total scenario (10 NE classes).

研究动机与目标

通过预训练语言模型提升葡萄牙语 NER 的性能，以应对标注数据稀缺的问题。
评估在不同迁移学习策略下，基于 BERT 的表示在葡萄牙语 NER 上的表现。
评估在 BERT 顶部加入 CRF 层以及基于跨度的上下文处理对 NER 准确性的影响。
提供可重复的葡萄牙语 NER 模型与代码以促进基准测试。

提出的方法

在大型葡萄牙语语料库 brWaC 上训练葡萄牙语 BERT 变体（BASE 和 LARGE），使用 WordPiece/SentencePiece 词汇。
构建一个 BERT-CRF 架构，包含一个分词级分类器和一个线性链 CRF 进行序列标注。
研究特征基（冻结的 BERT 与 BiLSTM 以及 CRF 分类器）对比微调（联合训练 BERT 与分类器/CRF）的迁移学习策略。
通过将长文档拆分为重叠的跨度并设定步长来处理；每个标记从上下文最丰富的跨度中选取最终标签。
预处理 HAREM 数据以解决 ALT 标签和多类别实体的 IOB2 标记。
与 HAREM First/ MiniHAREM 数据集上的此前 NER 基线使用 CoNLL 2003 评估进行比较。

实验结果

研究问题

RQ1葡萄牙语的 BERT-CRF 是否在 HAREM I（First HAREM 与 MiniHAREM）上超越前人状态最优的 NER 系统？
RQ2在葡萄牙语 NER 的 BERT 任务中，特征基与微调的迁移策略表现有何差异？
RQ3在葡萄牙语 NER 中，在 BERT 顶部加入 CRF 层的影响是什么？
RQ4基于跨度的最大上下文评估如何影响标记级预测？
RQ5模型规模（BASE vs LARGE）对葡萄牙语 NER 的性能有何影响？

主要发现

架构	总精确度	总召回率	总 F1	选择性精确度	选择性召回率	选择性 F1
CharWNN (Santos & Guimaraes, 2015)	"67.16"	"63.74"	"65.41"	"73.98"	"68.68"	"71.23"
LSTM-CRF (Castro et al., 2018)	"72.78"	"68.03"	"70.33"	"78.26"	"74.39"	"76.27"
BiLSTM-CRF+FlairBBP (Santos et al., 2019a)	"74.91"	"74.37"	"74.64"	"83.38"	"81.17"	"82.26"
ML-BERT BASE-LSTM †	"69.68"	"69.51"	"69.59"	"75.59"	"77.13"	"76.35"
ML-BERT BASE-LSTM-CRF †	"74.70"	"69.74"	"72.14"	"80.66"	"75.06"	"77.76"
ML-BERT BASE	"72.97"	"73.78"	"73.37"	"77.35"	"79.16"	"78.25"
ML-BERT BASE-CRF	"74.82"	"73.49"	"74.15"	"80.10"	"78.78"	"79.44"
PT-BERT BASE-LSTM †	"75.00"	"73.61"	"74.30"	"79.88"	"80.29"	"80.09"
PT-BERT BASE-LSTM-CRF †	"78.33"	"73.23"	"75.69"	"84.58"	"78.72"	"81.66"
PT-BERT BASE	"78.36"	"77.62"	"77.98"	"83.22"	"82.85"	"83.03"
PT-BERT BASE-CRF	"78.60"	"76.89"	"77.73"	"83.89"	"81.50"	"82.68"
PT-BERT LARGE-LSTM †	"72.96"	"72.05"	"72.50"	"78.13"	"78.93"	"78.53"
PT-BERT LARGE-LSTM-CRF †	"77.45"	"72.43"	"74.86"	"83.08"	"77.83"	"80.37"
PT-BERT LARGE	"78.45"	"77.40"	"77.92"	"83.45"	"83.15"	"83.30"
PT-BERT LARGE-CRF	"80.08"	"77.31"	"78.67"	"84.82"	"81.72"	"83.24"

PT-BERT BASE 与 LARGE 结合 CRF 在 MiniHAREM 上取得最先进的结果，并显著超越前人方法的 F1。
微调通常在该任务中优于特征基方法。
CRF 集成通常提升精确度，但有时会降低召回率，经过对无效 IOB2 转换的后处理可带来 ~1–2 点的 F1 提升。
相比于英语 NER 的趋势，葡萄牙语 BERT 模型在非 CRF 基线上的性能提升显著（在总场景中相对于 LSTM-CRF 的提升约为 ~8.3 点）。
大型葡萄牙语 BERT 在总体实体类别场景中提供最佳整体结果，尽管在选择性场景下相对于 BASE 的增益可能较小，因为数据集规模有限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。