[论文解读] Portuguese Named Entity Recognition using BERT-CRF
该论文使用 Portuguese BERT 模型并采用 BERT-CRF 架构进行 NER,在 HAREM I 上取得了最先进的结果,尤其是在总实体类别场景下实现了显著的 F1 提升。
Recent advances in language representation using neural networks have made it viable to transfer the learned internal states of a trained model to downstream natural language processing tasks, such as named entity recognition (NER) and question answering. It has been shown that the leverage of pre-trained language models improves the overall performance on many tasks and is highly beneficial when labeled data is scarce. In this work, we train Portuguese BERT models and employ a BERT-CRF architecture to the NER task on the Portuguese language, combining the transfer capabilities of BERT with the structured predictions of CRF. We explore feature-based and fine-tuning training strategies for the BERT model. Our fine-tuning approach obtains new state-of-the-art results on the HAREM I dataset, improving the F1-score by 1 point on the selective scenario (5 NE classes) and by 4 points on the total scenario (10 NE classes).
研究动机与目标
- 通过预训练语言模型提升葡萄牙语 NER 的性能,以应对标注数据稀缺的问题。
- 评估在不同迁移学习策略下,基于 BERT 的表示在葡萄牙语 NER 上的表现。
- 评估在 BERT 顶部加入 CRF 层以及基于跨度的上下文处理对 NER 准确性的影响。
- 提供可重复的葡萄牙语 NER 模型与代码以促进基准测试。
提出的方法
- 在大型葡萄牙语语料库 brWaC 上训练葡萄牙语 BERT 变体(BASE 和 LARGE),使用 WordPiece/SentencePiece 词汇。
- 构建一个 BERT-CRF 架构,包含一个分词级分类器和一个线性链 CRF 进行序列标注。
- 研究特征基(冻结的 BERT 与 BiLSTM 以及 CRF 分类器)对比微调(联合训练 BERT 与分类器/CRF)的迁移学习策略。
- 通过将长文档拆分为重叠的跨度并设定步长来处理;每个标记从上下文最丰富的跨度中选取最终标签。
- 预处理 HAREM 数据以解决 ALT 标签和多类别实体的 IOB2 标记。
- 与 HAREM First/ MiniHAREM 数据集上的此前 NER 基线使用 CoNLL 2003 评估进行比较。
实验结果
研究问题
- RQ1葡萄牙语的 BERT-CRF 是否在 HAREM I(First HAREM 与 MiniHAREM)上超越前人状态最优的 NER 系统?
- RQ2在葡萄牙语 NER 的 BERT 任务中,特征基与微调的迁移策略表现有何差异?
- RQ3在葡萄牙语 NER 中,在 BERT 顶部加入 CRF 层的影响是什么?
- RQ4基于跨度的最大上下文评估如何影响标记级预测?
- RQ5模型规模(BASE vs LARGE)对葡萄牙语 NER 的性能有何影响?
主要发现
| 架构 | 总精确度 | 总召回率 | 总 F1 | 选择性精确度 | 选择性召回率 | 选择性 F1 |
|---|---|---|---|---|---|---|
| CharWNN (Santos & Guimaraes, 2015) | "67.16" | "63.74" | "65.41" | "73.98" | "68.68" | "71.23" |
| LSTM-CRF (Castro et al., 2018) | "72.78" | "68.03" | "70.33" | "78.26" | "74.39" | "76.27" |
| BiLSTM-CRF+FlairBBP (Santos et al., 2019a) | "74.91" | "74.37" | "74.64" | "83.38" | "81.17" | "82.26" |
| ML-BERT BASE-LSTM † | "69.68" | "69.51" | "69.59" | "75.59" | "77.13" | "76.35" |
| ML-BERT BASE-LSTM-CRF † | "74.70" | "69.74" | "72.14" | "80.66" | "75.06" | "77.76" |
| ML-BERT BASE | "72.97" | "73.78" | "73.37" | "77.35" | "79.16" | "78.25" |
| ML-BERT BASE-CRF | "74.82" | "73.49" | "74.15" | "80.10" | "78.78" | "79.44" |
| PT-BERT BASE-LSTM † | "75.00" | "73.61" | "74.30" | "79.88" | "80.29" | "80.09" |
| PT-BERT BASE-LSTM-CRF † | "78.33" | "73.23" | "75.69" | "84.58" | "78.72" | "81.66" |
| PT-BERT BASE | "78.36" | "77.62" | "77.98" | "83.22" | "82.85" | "83.03" |
| PT-BERT BASE-CRF | "78.60" | "76.89" | "77.73" | "83.89" | "81.50" | "82.68" |
| PT-BERT LARGE-LSTM † | "72.96" | "72.05" | "72.50" | "78.13" | "78.93" | "78.53" |
| PT-BERT LARGE-LSTM-CRF † | "77.45" | "72.43" | "74.86" | "83.08" | "77.83" | "80.37" |
| PT-BERT LARGE | "78.45" | "77.40" | "77.92" | "83.45" | "83.15" | "83.30" |
| PT-BERT LARGE-CRF | "80.08" | "77.31" | "78.67" | "84.82" | "81.72" | "83.24" |
- PT-BERT BASE 与 LARGE 结合 CRF 在 MiniHAREM 上取得最先进的结果,并显著超越前人方法的 F1。
- 微调通常在该任务中优于特征基方法。
- CRF 集成通常提升精确度,但有时会降低召回率,经过对无效 IOB2 转换的后处理可带来 ~1–2 点的 F1 提升。
- 相比于英语 NER 的趋势,葡萄牙语 BERT 模型在非 CRF 基线上的性能提升显著(在总场景中相对于 LSTM-CRF 的提升约为 ~8.3 点)。
- 大型葡萄牙语 BERT 在总体实体类别场景中提供最佳整体结果,尽管在选择性场景下相对于 BASE 的增益可能较小,因为数据集规模有限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。