QUICK REVIEW

[论文解读] A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text

Jingjing Xu, Wen Ji|arXiv (Cornell University)|Nov 19, 2017

Topic Modeling参考文献 19被引用 33

一句话总结

本文提出一个用于中文文学的篇章级命名实体识别与关系抽取数据集，通过启发式规则和机器辅助标注解决数据稀缺与不一致问题。该数据集基于726篇文献构建，字符数超过10万个，使最先进模型在NER任务上F1得分最高达71.33，在RE任务上达55.3，为中文文学文本中的联合NER与RE任务建立了新基准。

ABSTRACT

Named Entity Recognition and Relation Extraction for Chinese literature text is regarded as the highly difficult problem, partially because of the lack of tagging sets. In this paper, we build a discourse-level dataset from hundreds of Chinese literature articles for improving this task. To build a high quality dataset, we propose two tagging methods to solve the problem of data inconsistency, including a heuristic tagging method and a machine auxiliary tagging method. Based on this corpus, we also introduce several widely used models to conduct experiments. Experimental results not only show the usefulness of the proposed dataset, but also provide baselines for further research. The dataset is available at https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset

研究动机与目标

解决中文文学中命名实体识别（NER）与关系抽取（RE）缺乏高质量、篇章级数据集的问题。
解决在文学文本中对模糊实体与关系（如拟人化、隐喻性指代）标注不一致的问题。
提出并验证一种两阶段标注流程，结合启发式消歧规则与机器辅助标注，以提升标注效率与一致性。
为未来中文文学文本中联合NER与RE的研究提供基准数据集与强基线模型。
在新数据集上评估广泛使用的模型，并建立NER与RE任务的性能基准。

提出的方法

构建一个基于726篇中文文学文章的篇章级数据集，保留句子间上下文连贯性。
提出一种启发式标注方法，使用通用消歧规则（如仅标注实体核心词、去除形容词）以标准化实体标注。
实施机器辅助标注方法：在已标注子集上训练模型，预测剩余文本的标签，仅需人工校对不一致结果，从而减轻标注负担。
定义涵盖7种实体标签（如Person、Thing、Location、Time）与10种关系标签（如Part-Whole、Family、Located）的完整标签体系，并依据频率制定标注指南。
采用bi-LSTM与CRF模型进行NER，采用多种神经网络与传统模型（SVM、RNN、CNN、LSTM）进行RE，以F1分数作为评估指标。
在所有模型中采用小批量随机梯度下降进行训练，固定超参数（批量大小32，词向量维度100D）。

实验结果

研究问题

RQ1如何有效缓解中文文学文本中模糊实体与关系标注的不一致性问题？
RQ2与句子级方法相比，篇章级上下文在多大程度上能提升NER与RE模型的性能？
RQ3在中文文学文本上，使用最先进模型进行联合NER与RE任务的性能基线是什么？
RQ4在该新数据集上，不同特征工程方法与神经网络架构在F1分数上的表现如何比较？
RQ5机器辅助标注能否显著减少人工标注工作量，同时保持高水平的标签一致性？

主要发现

CRF模型在NER任务中取得最高F1分数71.33，优于Bi-LSTM（66.19），表明结构化特征模板具有优势。
CRF模型在Person标签上取得70.19的F1，Location为58.42，Metric标签为49.74，显示对更常见且易识别的实体类型性能更高。
在关系抽取任务中，SDP-LSTM模型取得最高F1分数55.3，优于SVM（48.9）及其他神经网络模型。
Bi-LSTM模型在NER任务中取得64.63的F1分数，Person与Thing标签的精确率较高（67.07），但召回率较低（62.37），表明在覆盖范围上仍有提升空间。
通过启发式规则与机器辅助校正验证的高质量标注，支持在模糊文学指代中实现一致的标签标注。
研究结果为未来研究建立了强有力的基线，其中CRF与SDP-LSTM在所提语料上表现最优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。