[论文解读] Portuguese Named Entity Recognition using BERT-CRF
该论文使用 Portuguese BERT 模型并采用 BERT-CRF 架构进行 NER,在 HAREM I 上取得了最先进的结果,尤其是在总实体类别场景下实现了显著的 F1 提升。
Recent advances in language representation using neural networks have made it viable to transfer the learned internal states of a trained model to downstream natural language processing tasks, such as named entity recognition (NER) and question answering. It has been shown that the leverage of pre-trained language models improves the overall performance on many tasks and is highly beneficial when labeled data is scarce. In this work, we train Portuguese BERT models and employ a BERT-CRF architecture to the NER task on the Portuguese language, combining the transfer capabilities of BERT with the structured predictions of CRF. We explore feature-based and fine-tuning training strategies for the BERT model. Our fine-tuning approach obtains new state-of-the-art results on the HAREM I dataset, improving the F1-score by 1 point on the selective scenario (5 NE classes) and by 4 points on the total scenario (10 NE classes).
研究动机与目标
- 通过预训练语言模型提升葡萄牙语 NER 的性能,以应对标注数据稀缺的问题。
- 评估在不同迁移学习策略下,基于 BERT 的表示在葡萄牙语 NER 上的表现。
- 评估在 BERT 顶部加入 CRF 层以及基于跨度的上下文处理对 NER 准确性的影响。
- 提供可重复的葡萄牙语 NER 模型与代码以促进基准测试。
提出的方法
- 在大型葡萄牙语语料库 brWaC 上训练葡萄牙语 BERT 变体(BASE 和 LARGE),使用 WordPiece/SentencePiece 词汇。
- 构建一个 BERT-CRF 架构,包含一个分词级分类器和一个线性链 CRF 进行序列标注。
- 研究特征基(冻结的 BERT 与 BiLSTM 以及 CRF 分类器)对比微调(联合训练 BERT 与分类器/CRF)的迁移学习策略。
- 通过将长文档拆分为重叠的跨度并设定步长来处理;每个标记从上下文最丰富的跨度中选取最终标签。
- 预处理 HAREM 数据以解决 ALT 标签和多类别实体的 IOB2 标记。
- 与 HAREM First/ MiniHAREM 数据集上的此前 NER 基线使用 CoNLL 2003 评估进行比较。
实验结果
研究问题
- RQ1葡萄牙语的 BERT-CRF 是否在 HAREM I(First HAREM 与 MiniHAREM)上超越前人状态最优的 NER 系统?
- RQ2在葡萄牙语 NER 的 BERT 任务中,特征基与微调的迁移策略表现有何差异?
- RQ3在葡萄牙语 NER 中,在 BERT 顶部加入 CRF 层的影响是什么?
- RQ4基于跨度的最大上下文评估如何影响标记级预测?
- RQ5模型规模(BASE vs LARGE)对葡萄牙语 NER 的性能有何影响?
主要发现
- PT-BERT BASE 与 LARGE 结合 CRF 在 MiniHAREM 上取得最先进的结果,并显著超越前人方法的 F1。
- 微调通常在该任务中优于特征基方法。
- CRF 集成通常提升精确度,但有时会降低召回率,经过对无效 IOB2 转换的后处理可带来 ~1–2 点的 F1 提升。
- 相比于英语 NER 的趋势,葡萄牙语 BERT 模型在非 CRF 基线上的性能提升显著(在总场景中相对于 LSTM-CRF 的提升约为 ~8.3 点)。
- 大型葡萄牙语 BERT 在总体实体类别场景中提供最佳整体结果,尽管在选择性场景下相对于 BASE 的增益可能较小,因为数据集规模有限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。