QUICK REVIEW

[論文レビュー] CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review

Dan Hendrycks, Collin Burns|arXiv (Cornell University)|Mar 10, 2021

Artificial Intelligence in Law参考文献 23被引用数 97

ひとこと要約

CUAD は41のラベルにわたる13,101の注釈を含む大規模な専門家が注釘した契約審査データセットを導入し、トランスフォーマーモデルを評価して、データ規模とモデル設計が専門的な法的NLPの性能に影響を与えることを示す。

ABSTRACT

Many specialized domains remain untouched by deep learning, as large labeled datasets require expensive expert annotators. We address this bottleneck within the legal domain by introducing the Contract Understanding Atticus Dataset (CUAD), a new dataset for legal contract review. CUAD was created with dozens of legal experts from The Atticus Project and consists of over 13,000 annotations. The task is to highlight salient portions of a contract that are important for a human to review. We find that Transformer models have nascent performance, but that this performance is strongly influenced by model design and training dataset size. Despite these promising results, there is still substantial room for improvement. As one of the only large, specialized NLP benchmarks annotated by experts, CUAD can serve as a challenging research benchmark for the broader NLP community.

研究の動機と目的

提供大規模で専門家が注釈したデータセットを契約審査のために提供し、極めて専門的な領域でのNLPを研究する。
41のラベルカテゴリにわたる抽出的条項ハイライトの性能をトランスフォーマーモデルで定量化する。
契約審査の性能に対する訓練データサイズとモデル設計の影響を評価する。
法分野におけるNLPを改善するための領域特異的注釈データの価値を示す。

提案手法

41のラベルカテゴリごとに契約文の開始位置/終了位置を予測するタスクとして定式化し、抽出的QAに類似させ、回答なしの場合も考慮。
長い契約文を扱うためスライディングウィンドウを使用し、CUAD上でHuggingFace Transformersを用いて複数の事前訓練済み言語モデルをファインチューニング。
Jaccard類似度を用いてスパンを一致させ、AUPRとPrecision at 80%/90% recallでモデルを評価。
極端なクラス不均衡に対処するため、訓練時に非関連（ネガティブ）特徴を低重み付け。
約8 GBのラベルなしEDGAR契約データで契約ドメインのRoBERTa-baseを事前訓練し、ドメイン事前訓練の効果を検証。

実験結果

リサーチクエスチョン

RQ1大規模なドメイン特化注釈付きデータセットは、NLPモデルが重要な契約条項を特定する能力を高められるか？
RQ2モデル設計と訓練データサイズは契約審査タスクの性能にどのように影響するか？
RQ3契約分析のためのドメイン特化事前訓練の相対的利点は何か？

主な発見

モデル	AUPR	Precision@80% Recall	Precision@90% Recall
BERT-base	32.4	8.2	0.0
BERT-large	32.3	7.6	0.0
ALBERT-base	35.3	11.1	0.0
ALBERT-large	34.9	20.9	0.0
ALBERT-xlarge	37.8	20.5	0.0
ALBERT-xxlarge	38.4	31.0	0.0
RoBERTa-base	42.6	31.1	0.0
RoBERTa-base + Contracts Pretraining	45.2	34.1	0.0
RoBERTa-large	48.2	38.1	0.0
DeBERTa-xlarge	47.8	44.0	17.8

DeBERTa-xlarge は全体のAUPRで最高を記録（47.8%）、Precision@80% Recallは44.0%、Precision@90% Recallでは17.8%である。
モデルサイズが大きくても利得は変動的で、DeBERTaはBERTを大幅に上回る一方、サイズ増加が modest improvements にとどまる場合がある。
契約に特化した事前訓練は、非事前訓練ベースラインに比べて modestなAUPRの利得（約3个百分点）を提供。
パフォーマンスはラベルカテゴリによって大きく異なり、いくつかのカテゴリは天井近く、他は20–30% AUPR程度。
訓練データサイズは性能に強く影響し、データを1桁増やすと大幅な利得が得られる（例：RoBERTa-baseで27.6%から42.6%のAUPR）。
CUADは法的審査コンテキストで高いリコールを要するNAS風の難しいベンチマークである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。