Skip to main content
QUICK REVIEW

[论文解读] A Dataset of German Legal Documents for Named Entity Recognition

Elena Leitner, Georg Rehm|arXiv (Cornell University)|Mar 29, 2020
Topic Modeling参考文献 15被引用 27
一句话总结

本文提出一个大规模、人工标注的德语法律语料库,包含67,000个德语法律句子(超过200万个词符),涵盖19种细粒度语义类别中的54,000个命名实体,包括法律特定实体如法律、法规和法院判决。该语料库为欧盟Lynx项目所开发,以CC-BY 4.0许可证发布,采用CoNNL-2002格式,并包含超过35,000个通过自动方法标注的TimeML时间表达式,支持训练德语法律文本的领域专用命名实体识别(NER)系统。

ABSTRACT

We describe a dataset developed for Named Entity Recognition in German federal court decisions. It consists of approx. 67,000 sentences with over 2 million tokens. The resource contains 54,000 manually annotated entities, mapped to 19 fine-grained semantic classes: person, judge, lawyer, country, city, street, landscape, organization, company, institution, court, brand, law, ordinance, European legal norm, regulation, contract, court decision, and legal literature. The legal documents were, furthermore, automatically annotated with more than 35,000 TimeML-based time expressions. The dataset, which is available under a CC-BY 4.0 license in the CoNNL-2002 format, was developed for training an NER service for German legal documents in the EU project Lynx.

研究动机与目标

  • 为解决德语法律文书领域内缺乏免费可用的专用命名实体识别(NER)语料库的问题。
  • 为德国联邦法院判决书相关性开发一个全面的19种类别细粒度语义类型体系。
  • 创建一个高质量的人工标注语料库,适用于训练和评估德语法律领域命名实体识别(NER)模型。
  • 支持多语言欧洲法律知识图谱的语义编目技术发展。
  • 支持在欧盟范围内构建稳健、领域适配的法律合规服务命名实体识别(NER)系统。

提出的方法

  • 对67,000个德国联邦法院判决书中的句子进行人工标注,涵盖包括个人、法官、法院、法律、条例、法规和法律文献在内的19种语义实体类别。
  • 制定标准化的标注指南,以确保在复杂法律实体类型上标注者之间的一致性。
  • 使用基于规则和自然语言处理(NLP)的方法自动提取基于TimeML的时间表达式,为语料库补充时间元数据。
  • 以CoNNL-2002标准格式化语料库,以确保与现有NER工具包和训练流程的兼容性。
  • 将语料库整合至欧盟Lynx项目,以支持多语言法律领域内的合规服务。
  • 以CC-BY 4.0许可证发布语料库,以促进开放研究和可复现性。

实验结果

研究问题

  • RQ1德语法律文书最有效且最细粒度的命名实体类型体系是什么?
  • RQ2如何为德语法律文本构建一个大规模、高质量的命名实体识别(NER)语料库,且包含领域特定的实体类别?
  • RQ3现有NER模型在该法律专用语料库上能多大程度上实现有效训练?
  • RQ4自动提取的时间表达式在法律文书中的手动NER标注中起到何种补充作用?
  • RQ5该语料库能否作为在欧盟背景下构建多语言法律知识图谱的基础?

主要发现

  • 该语料库包含约67,000个句子和超过200万个词符,涵盖19种类别中的54,000个人工标注的命名实体。
  • 该语料库包含19种子细粒度实体类型,如法院判决、法律文献、法规和欧洲法律规范,反映了德语法律文本的复杂性。
  • 超过35,000个时间表达式通过TimeML自动标注,增强了语料库在时间推理方面的实用性。
  • 该语料库以CC-BY 4.0许可证发布,并以CoNNL-2002格式提供,确保了广泛的可访问性以及与NLP工具的兼容性。
  • 初步实验表明,基于BERT的模型未带来性能提升,表明在未进一步适配的情况下,通用语言模型难以直接应用于法律NER任务。
  • 该语料库旨在作为训练和评估德语法律领域NER系统的基石性资源,支持欧盟Lynx项目构建多语言法律知识图谱的目标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。