[论文解读] Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities
Multi-LexSum 提供来自 CRLC 的 9,280 条由专家撰写的多粒度摘要,用于 U.S. federal civil rights lawsuits,并分析当前模型在这一具有挑战性、长篇、多文档摘要任务中的表现不足。
With the advent of large language models, methods for abstractive summarization have made great strides, creating potential for use in applications to aid knowledge workers processing unwieldy document collections. One such setting is the Civil Rights Litigation Clearinghouse (CRLC) (https://clearinghouse.net),which posts information about large-scale civil rights lawsuits, serving lawyers, scholars, and the general public. Today, summarization in the CRLC requires extensive training of lawyers and law students who spend hours per case understanding multiple relevant documents in order to produce high-quality summaries of key events and outcomes. Motivated by this ongoing real-world summarization effort, we introduce Multi-LexSum, a collection of 9,280 expert-authored summaries drawn from ongoing CRLC writing. Multi-LexSum presents a challenging multi-document summarization task given the length of the source documents, often exceeding two hundred pages per case. Furthermore, Multi-LexSum is distinct from other datasets in its multiple target summaries, each at a different granularity (ranging from one-sentence "extreme" summaries to multi-paragraph narrations of over five hundred words). We present extensive analysis demonstrating that despite the high-quality summaries in the training data (adhering to strict content and style guidelines), state-of-the-art summarization models perform poorly on this task. We release Multi-LexSum for further research in summarization methods as well as to facilitate development of applications to assist in the CRLC's mission at https://multilexsum.github.io.
研究动机与目标
- 将真实世界的法律摘要任务确认为高成本、高价值的任务,需要跨越多份文档进行综合。
- 介绍 Multi-LexSum,这是一个具有较长来源文档和多粒度摘要的大型、由专家撰写的数据集。
- 分析基线模型表现并突出法律领域 abstractive(抽象式)多文档摘要的差距。
提出的方法
- 从 CRLC 汇集 ~40k 来源文档和 ~9k 专家撰写的摘要。
- 为每个案例提供三种目标粒度:tiny(≈25词),short(≈130词),long(≈650词)。
- 在长输入的多文档任务上评估最先进的抽象式模型(BART、PEGASUS、LED、PRIMERA)。
- 将抽象式模型与抽取式基线进行比较,并在输入长度和粒度增加时分析性能。
- 通过多任务和多任务训练设置进行实验,以利用多粒度摘要。
- 与经 CRLC 训练的法学院学生进行人工评估,以评估生成摘要的可用性和准确性。
实验结果
研究问题
- RQ1模型是否能够从海量多文档来源中生成并综合信息,以产生长、短、小型摘要(d→l、d→s、d→t)?
- RQ2模型是否能够被配置为在不同粒度下生成准确且可用的摘要(l→s、l→t、s→t)?
- RQ3通过多任务或渐进式摘要利用多粒度是否能提升性能,尤其是在长摘要方面?
- RQ4多粒度训练范式是否减少幻觉并提高与原始材料的事实对齐?
主要发现
- 现有摘要模型在 Multi-LexSum 上表现不足,人工判定的质量平均分约为 0.43(0–3 量表)——针对模型输出。
- 长输入模型(LED、PRIMERA)在所有三种多文档任务上均优于传统的短输入模型。
- 长摘要仍然很难达到与人类同等的水平;即使是最好的模型,其输出也远短于黄金长摘要(平均 647 词 vs. 某些模型约 416 词)。
- 在多粒度训练(三任务多任务设置)下,长摘要在自动指标上的表现提升了 11–17%,针对 l→s 和 l→t 任务。
- 将长摘要/短摘要浓缩为更短的摘要(d→s、d→t、l→s、l→t、s→t)可带来显著提升,且将黄金摘要用作输入进一步提升性能,这暗示了管线或多阶段方法的好处。
- 人机交互评估显示,尽管自动化提升,缺乏人工策划和自适应系统设计时,端到端可用性仍然有限;经 CRLC 调优、具碎片级选择的系统降低了错误,但仍需大量编辑。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。