[论文解读] An Improved Baseline for Sentence-level Relation Extraction
本论文提出了带类型的实体标记来提升句子级关系抽取,并在 TACRED、TACREV 和 Re-TACRED 上取得最先进的 F1 分数,特别是在 Re-TACRED 上使用 RoBERTa-LARGE 与基于标点的类型标记达到 91.1%。
Sentence-level relation extraction (RE) aims at identifying the relationship between two entities in a sentence. Many efforts have been devoted to this problem, while the best performing methods are still far from perfect. In this paper, we revisit two problems that affect the performance of existing RE models, namely entity representation and noisy or ill-defined labels. Our improved RE baseline, incorporated with entity representations with typed markers, achieves an F1 of 74.6% on TACRED, significantly outperforms previous SOTA methods. Furthermore, the presented new baseline achieves an F1 of 91.1% on the refined Re-TACRED dataset, demonstrating that the pretrained language models (PLMs) achieve high performance on this task. We release our code to the community for future research.
研究动机与目标
- 突出实体表示对句子级RE性能的影响。
- 研究带类型的实体标记与其他实体表示技术的比较。
- 在 TACRED、TACREV 和 Re-TACRED 数据集上评估改进后的基线。
- 评估对噪声标签和未见实体的鲁棒性。
提出的方法
- 用一个使用来自 PLM 的主体和宾语实体嵌入的分类器对句子级RE进行形式化。"
- 用各种技术表示实体,包括在输入中包含 NER 类型的带类型的实体标记。"
- 将性能最佳的实体表示整合到 RoBERTa-LARGE 主干中并进行端到端微调。"
- 在 TACRED、TACREV 和 Re-TACRED 数据集上比较性能。"
实验结果
研究问题
- RQ1研究问题([
- RQ2What is the effect of different entity representation techniques on sentence-level RE performance?
- RQ3Can typed entity markers improve RE accuracy over untyped markers or masks?
- RQ4How does the improved baseline perform on TACRED, TACREV, and Re-TACRED compared to prior SOTA methods?
- RQ5Does the approach maintain robustness when labels are noisy or entities are unseen?
主要发现
| 模型 | TACRED (F1) | TACREV (F1) | Re-TACRED (F1) |
|---|---|---|---|
| RoBERTa-LARGE + typed entity marker (punct) | 74.6 | 83.2 | 91.1 |
| BERT-BASE + typed entity marker | 71.5 | 79.3 | 87.9 |
| BERT-LARGE + typed entity marker | 72.9 | 81.3 | 89.7 |
- 带类型的实体标记(标点)与 RoBERTa-LARGE 在 TACRED 上达到 74.6% F1,在 TACREV 上达到 83.2%,在 Re-TACRED 上达到 91.1%。
- 带类型的实体标记在不同编码器上始终优于实体掩码和非类型标记。
- 采用带类型实体标记的改进基线在 TACRED、TACREV 和 Re-TACRED 上设立新的SOTA(RoBERTa-LARGE + typed marker (punct))。
- 在干净的 TACRED 测试集上,带类型标记的收益小于 TACRED/TACREV 上的收益,表明 TacRED 派生数据集中的标签噪声效应。
- 研究表明当实体类型信息有效融入输入表征时,预训练语言模型可以实现高水平的关系抽取性能。
- 作者提供证据表明在使用带类型标记时,实体名称可以帮助对未见实体的泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。