[论文解读] CAIL2019-SCM: A Dataset of Similar Case Matching in Legal Domain
本文介绍 CAIL2019-SCM,这是一个包含 8,964 条中国法律案例三元组的数据集,聚焦于相似案例匹配,并报告基线实验,表明当前模型在捕捉法律相似性方面存在困难。
In this paper, we introduce CAIL2019-SCM, Chinese AI and Law 2019 Similar Case Matching dataset. CAIL2019-SCM contains 8,964 triplets of cases published by the Supreme People's Court of China. CAIL2019-SCM focuses on detecting similar cases, and the participants are required to check which two cases are more similar in the triplets. There are 711 teams who participated in this year's competition, and the best team has reached a score of 71.88. We have also implemented several baselines to help researchers better understand this task. The dataset and more details can be found from https://github.com/china-ai-law-challenge/CAIL2019/tree/master/scm.
研究动机与目标
- 展示并描述在法律领域中的相似案例匹配的 CAIL2019-SCM 数据集。
- 提供带有标注和质量控制的数据集构建过程。
- 在该数据集上评估基线语义文本匹配模型以建立参考。
- 突出挑战以及法律知识在提升 SCM 性能中的作用。
提出的方法
- 定义基于三元组的 SCM 任务,在案件事实描述上使用相似度函数 sim(·,·)。
- 使用带注释的法律要素以及 tf-idf 加上元素相似性,从 Private Lending 案件构建 8,964 条三元组用于三元组选择。
- 使用 CNN、LSTM 或 BERT 编码器的孪生网络架构对三元组进行编码,并计算线性相似度分数。
- 使用二元交叉熵损失进行训练,将两个候选相似度与真实排序进行比较。
- 在大规模训练/验证/测试分割上调整标准文本匹配基线(CNN、LSTM、BERT)并报告准确率。
实验结果
研究问题
- RQ1标准语义文本匹配模型是否能够在法律案例描述的三元组中正确识别出更相似的案例对?
- RQ2在长度较长、法律语义复杂的中文法律文本上,编码器选择(CNN、LSTM、BERT)的表现如何?
主要发现
- 基线方法相较于天真方法有意义的改进,但在 CAIL2019-SCM 上总体表现仍受限。
- 领先参赛团队的准确率高于基线,表明有所进步,但仍有提升空间。
- 在所评估的基线中,利用法律知识或推理的模型代表性不足,暗示需要填补这一差距以提升 SCM 表现。
- 该数据集包含较长的文档(常常 >512 字),对现有架构在捕捉文档级信息方面构成挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。