QUICK REVIEW

[论文解读] CAPTAIN at COLIEE 2023: Efficient Methods for Legal Information Retrieval and Entailment Tasks

Chau Nguyen, Phuong Tuyet Nguyen|arXiv (Cornell University)|Jan 7, 2024

Artificial Intelligence in Law被引用 6

一句话总结

CAPTAIN 基于 MonoT5 的微调，结合硬负样本挖掘与集成，面向 COLIEE 2023 第2–4任务，在 Task 2 取得第一名，并在 Task 3 和 Task 4 展现出色的表现。

ABSTRACT

The Competition on Legal Information Extraction/Entailment (COLIEE) is held annually to encourage advancements in the automatic processing of legal texts. Processing legal documents is challenging due to the intricate structure and meaning of legal language. In this paper, we outline our strategies for tackling Task 2, Task 3, and Task 4 in the COLIEE 2023 competition. Our approach involved utilizing appropriate state-of-the-art deep learning methods, designing methods based on domain characteristics observation, and applying meticulous engineering practices and methodologies to the competition. As a result, our performance in these tasks has been outstanding, with first places in Task 2 and Task 3, and promising results in Task 4. Our source code is available at https://github.com/Nguyen2015/CAPTAIN-COLIEE2023/tree/coliee2023.

研究动机与目标

解决 COLIEE 2023 数据（案例法和法令法）上的法律信息检索与蕴涵挑战。
开发能够利用领域特定微调与模型集成来提升 Tasks 2–4 表现的鲁棒方法。
提供工程创新（数据采样、检查点集成、预测策略），以应对有限标注数据和大型候选集合。

提出的方法

使用硬负样本挖掘对 MonoT5-large 进行微调，以创建具有挑战性的训练样本。
对多个微调检查点进行网格搜索权重的模型集成，以提升排序性能。
使用逐点输入模板将 MonoT5 的输出转换为候选段落的相关性分数。
对 Task 3（法令法检索）应用数据增强和子模型集成，以应对民法 queries 的类别多样性。
对于 Task 4，实现在线数据增强、条件陈述抽取和 SVM 集成，以确定法律蕴涵。

实验结果

研究问题

RQ1如何在标注数据有限的情况下，有效对预训练的序列到序列模型（MonoT5）进行微调以实现法律案例蕴涵？
RQ2哪些集成与采样策略最能利用多个模型检查点来在法律信息检索任务中提升排序的稳定性和准确性？
RQ3在标注数据稀缺时，是否通过捕捉多样法律类别的子模型集成能提升法令法检索？
RQ4增广与条件陈述抽取技术是否能提升法律文本蕴涵任务的表现？
RQ5在 COLIEE Task 4 的蕴涵场景中，哪种数据增强与集成方法组合能实现稳健性能？

主要发现

Method	Validation F1
BM25 baseline	61.47
MonoT5-large (zero-shot)	68.62
MonoT5-3B (zero-shot)	68.31
BERT-large (MS MARCO re-ranker)	53.21
FT MonoT5-large with random negatives (mt5l-e2)	75.23
FT MonoT5-large with hard negatives (mt5l-ed)	79.29
Ensemble of top 5 checkpoints (mt5l-ed4)	80.18

对 MonoT5-large 进行微调并结合硬负样本挖掘，在 Task 2 的验证集 F1 上达到 state-of-the-art（并优于基线）。
对前5个检查点进行集成并进行超参数搜索，为 Task 2 提供最佳验证表现，尽管在测试数据上单一微调模型有时优于集成，可能原因是过拟合。
Task 3 的结果显示，将 monoT5 与日本 BERT 和数据筛选策略结合，可以提高开发集上的宏F2，集成变体在 R03 上取得较强表现。
Task 4 的方法（在线数据增强、条件陈述抽取和 SVM 集成）对 YES/NO 蕴涵决策展现互补优势，提升对不同问题的鲁棒性。
在多项实验中，CAPTAIN 方法在 Task 2 中持续优于若干基线（BM25、零-shot MonoT5、基于 BERT 的再排序方法），并在 Task 3 和 Task 4 展现出竞争性增益。
源代码已在提供的 GitHub 存储库中开源，以便复现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。