QUICK REVIEW

[论文解读] A Dataset of German Legal Documents for Named Entity Recognition

Elena Leitner, Georg Rehm|arXiv (Cornell University)|Mar 29, 2020

Topic Modeling参考文献 15被引用 27

一句话总结

本文提出一个大规模、人工标注的德语法律语料库，包含67,000个德语法律句子（超过200万个词符），涵盖19种细粒度语义类别中的54,000个命名实体，包括法律特定实体如法律、法规和法院判决。该语料库为欧盟Lynx项目所开发，以CC-BY 4.0许可证发布，采用CoNNL-2002格式，并包含超过35,000个通过自动方法标注的TimeML时间表达式，支持训练德语法律文本的领域专用命名实体识别（NER）系统。

ABSTRACT

We describe a dataset developed for Named Entity Recognition in German federal court decisions. It consists of approx. 67,000 sentences with over 2 million tokens. The resource contains 54,000 manually annotated entities, mapped to 19 fine-grained semantic classes: person, judge, lawyer, country, city, street, landscape, organization, company, institution, court, brand, law, ordinance, European legal norm, regulation, contract, court decision, and legal literature. The legal documents were, furthermore, automatically annotated with more than 35,000 TimeML-based time expressions. The dataset, which is available under a CC-BY 4.0 license in the CoNNL-2002 format, was developed for training an NER service for German legal documents in the EU project Lynx.

研究动机与目标

为解决德语法律文书领域内缺乏免费可用的专用命名实体识别（NER）语料库的问题。
为德国联邦法院判决书相关性开发一个全面的19种类别细粒度语义类型体系。
创建一个高质量的人工标注语料库，适用于训练和评估德语法律领域命名实体识别（NER）模型。
支持多语言欧洲法律知识图谱的语义编目技术发展。
支持在欧盟范围内构建稳健、领域适配的法律合规服务命名实体识别（NER）系统。

提出的方法

对67,000个德国联邦法院判决书中的句子进行人工标注，涵盖包括个人、法官、法院、法律、条例、法规和法律文献在内的19种语义实体类别。
制定标准化的标注指南，以确保在复杂法律实体类型上标注者之间的一致性。
使用基于规则和自然语言处理（NLP）的方法自动提取基于TimeML的时间表达式，为语料库补充时间元数据。
以CoNNL-2002标准格式化语料库，以确保与现有NER工具包和训练流程的兼容性。
将语料库整合至欧盟Lynx项目，以支持多语言法律领域内的合规服务。
以CC-BY 4.0许可证发布语料库，以促进开放研究和可复现性。

实验结果

研究问题

RQ1德语法律文书最有效且最细粒度的命名实体类型体系是什么？
RQ2如何为德语法律文本构建一个大规模、高质量的命名实体识别（NER）语料库，且包含领域特定的实体类别？
RQ3现有NER模型在该法律专用语料库上能多大程度上实现有效训练？
RQ4自动提取的时间表达式在法律文书中的手动NER标注中起到何种补充作用？
RQ5该语料库能否作为在欧盟背景下构建多语言法律知识图谱的基础？

主要发现

该语料库包含约67,000个句子和超过200万个词符，涵盖19种类别中的54,000个人工标注的命名实体。
该语料库包含19种子细粒度实体类型，如法院判决、法律文献、法规和欧洲法律规范，反映了德语法律文本的复杂性。
超过35,000个时间表达式通过TimeML自动标注，增强了语料库在时间推理方面的实用性。
该语料库以CC-BY 4.0许可证发布，并以CoNNL-2002格式提供，确保了广泛的可访问性以及与NLP工具的兼容性。
初步实验表明，基于BERT的模型未带来性能提升，表明在未进一步适配的情况下，通用语言模型难以直接应用于法律NER任务。
该语料库旨在作为训练和评估德语法律领域NER系统的基石性资源，支持欧盟Lynx项目构建多语言法律知识图谱的目标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。