QUICK REVIEW

[論文レビュー] Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities

Zejiang Shen, Kyle Lo|arXiv (Cornell University)|Jun 22, 2022

Artificial Intelligence in Law被引用数 20

ひとこと要約

Multi-LexSumはCRLCから抽出された米国連邦民権訴訟に関する専門家作成のマルチ粒度サマリー9,280件を提供し、現在のモデルがこの難易度の高い長文・複数文書要約タスクで十分に性能を発揮していないことを分析する。

ABSTRACT

With the advent of large language models, methods for abstractive summarization have made great strides, creating potential for use in applications to aid knowledge workers processing unwieldy document collections. One such setting is the Civil Rights Litigation Clearinghouse (CRLC) (https://clearinghouse.net),which posts information about large-scale civil rights lawsuits, serving lawyers, scholars, and the general public. Today, summarization in the CRLC requires extensive training of lawyers and law students who spend hours per case understanding multiple relevant documents in order to produce high-quality summaries of key events and outcomes. Motivated by this ongoing real-world summarization effort, we introduce Multi-LexSum, a collection of 9,280 expert-authored summaries drawn from ongoing CRLC writing. Multi-LexSum presents a challenging multi-document summarization task given the length of the source documents, often exceeding two hundred pages per case. Furthermore, Multi-LexSum is distinct from other datasets in its multiple target summaries, each at a different granularity (ranging from one-sentence "extreme" summaries to multi-paragraph narrations of over five hundred words). We present extensive analysis demonstrating that despite the high-quality summaries in the training data (adhering to strict content and style guidelines), state-of-the-art summarization models perform poorly on this task. We release Multi-LexSum for further research in summarization methods as well as to facilitate development of applications to assist in the CRLC's mission at https://multilexsum.github.io.

研究の動機と目的

多くの文書を横断して統合を要する高コスト・高価値タスクとして、実世界の法的要約を動機づける。
長いソース文書とマルチ粒度の要約を備えた大規模で専門家作成のデータセット、Multi-LexSumを紹介する。
法分野における抽象的・多文書要約の基準モデルの性能を分析し、ギャップを強調する。

提案手法

CRLCから約4万のソース文書と約9千の専門家作成要約を組み立てる。
各ケースに対して3つのターゲット粒度を提供する：tiny（約25語）、short（約130語）、long（約650語）。
最新の抽象的モデル（BART、PEGASUS、LED、PRIMERA）を長い入力を伴う多文書タスクで評価する。
抽出型のベースラインと比較し、入力長と粒度が増加するにつれて抽象モデルの性能を分析する。
複数の粒度を活用するマルチタスクおよびマルチタスク学習設定を実験して、複数粒度の要約を活用する。
CRLCで訓練した法科学生による人間評価を実施し、生成された要約の実用性と正確性を評価する。

実験結果

リサーチクエスチョン

RQ1モデルは膨大な多文書ソースから情報を統合して長/短/極小の要約を生成できるか（d→l、d→s、d→t）？
RQ2モデルは異なる粒度で正確で有用な要約を生成できるよう設定できるか（l→s、l→t、s→t）？
RQ3マルチ粒度を用いたマルチタスクまたは漸進的要約が、特に長い要約の性能を向上させるか？
RQ4マルチ粒度学習パラダイムは幻覚を減らし、ソース材料との事実的整合性を向上させるか？

主な発見

既存の要約モデルはMulti-LexSumで低下しており、モデル出力の品質は人間評価で0–3スケールの平均約0.43。
長文入力モデル（LED、PRIMERA）は、3つの多文書タスクすべてで従来の短文入力モデルを上回る。
長い要約は人間並みに再現するのが依然として難しく、最高のモデルでも金標本の長い要約よりもかなり短い出力（平均647語 vs. 一部モデルで約416語程度）しか出せない。
長さの異なる粒度での訓練（3タスクのマルチタスク設定）は、l→sおよびl→tタスクで自動指標の長要約性能を11–17%改善。
長い/短い要約を短い要約へ凝縮する（d→s、d→t、l→s、l→t、s→t）は大きな利得を生み、金の要約を入力として用いるとさらに性能が向上することを示唆し、パイプラインまたはマルチステージアプローチの利点を示唆する。
ヒューマン・イン・ザ・ループ評価では、自動的な改善にもかかわらず、ヒトによるキュレーションと適応的システム設計なしにはエンドツーエンドの使いやすさが制限されることが明らかになった。CRLC調整済みシステムでスニペットレベル選択を行ってもエラーは減少したが、 substantial editsを要する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。