Skip to main content
QUICK REVIEW

[论文解读] The Cambridge Law Corpus: A Dataset for Legal AI Research

Andreas Östling, Holli Sargeant|arXiv (Cornell University)|Jan 1, 2023
Artificial Intelligence in Law被引用 7
一句话总结

剑桥法律语料库(CLC)是一个大规模、经法律与伦理审查的语料库,包含258,146份英国法院案件,时间跨度从16世纪至21世纪,已为学术研究发布,其中638个案件附有案件结果标注。该语料库支持GPT-3、GPT-4和RoBERTa等法律AI模型在案件结果预测任务上的基准测试,支持在严格使用条款下的可复现且负责任的法律自然语言处理研究。

ABSTRACT

We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.

研究动机与目标

  • 为英国法律体系解决大规模、高质量、可机器读取的法律语料库稀缺的问题。
  • 提供一个法律合规且伦理负责的语料库,用于训练和评估法律AI模型。
  • 在真实法律场景中,实现对前沿大语言模型(如GPT-3、GPT-4、RoBERTa)在案件结果预测任务上的基准测试。
  • 建立可持续、可版本化且可扩展的语料库基础设施,确保贡献者与用户的问责机制。

提出的方法

  • 从英格兰和威尔士收集并数字化258,146份英国法院案件,时间跨度为16世纪至21世纪。
  • 包含结构化元数据和机器可读格式的原始文本,供研究使用。
  • 由法律专家对638个案件进行案件结果标注,以支持监督学习与评估。
  • 使用标注子集,在案件结果预测任务上训练并评估基于Transformer的模型(如GPT-3、GPT-4、RoBERTa)。
  • 实施严格的访问控制、伦理审查要求及许可框架,确保符合GDPR并防止滥用。
  • 通过Git进行版本化发布,附带变更日志,并支持未来贡献与修正。

实验结果

研究问题

  • RQ1GPT-3、GPT-4和RoBERTa等大语言模型在从英国法律判决中预测案件结果方面的有效性如何?
  • RQ2通用大语言模型与微调后的法律专用模型在英国案件结果预测任务上的性能差距有多大?
  • RQ3如何系统性地将法律与伦理约束(包括GDPR和隐私保护)整合到法律AI语料库的设计与分发中?
  • RQ4历史法律语言及案件格式的差异对模型泛化能力与数据质量有何影响?
  • RQ5如何通过社区贡献,长期维护并扩展一个可持续、可版本化且可扩展的法律语料库?

主要发现

  • CLC语料库包含258,146份英国法院案件,时间跨度为16世纪至21世纪,其中638个案件由法律专家标注了案件结果。
  • GPT-4和RoBERTa模型在案件结果预测任务上表现优异,为英国语境下的法律AI设立了新基准。
  • 该语料库以仅限研究使用的许可发布,附带伦理合规要求,包括强制性伦理审查与GDPR合规。
  • 语料库通过Git进行版本化管理,并将通过公开变更日志持续更新新案件、新功能与修正。
  • 用户可申请从语料库中移除个人身份信息,且语料库支持经质量控制的社区贡献。
  • 该语料库可通过DOI(10.17863/CAM.100221)及专用项目页面获取,附有使用条款与贡献指南。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。