[論文レビュー] Corpus for Automatic Structuring of Legal Documents
新しい英印法判決コーパスを導入、12の修辞的役割で注釈、基礎RR予測モデルを訓練、RR対応の要約と判決予測を実証。
In populous countries, pending legal cases have been growing exponentially. There is a need for developing techniques for processing and organizing legal documents. In this paper, we introduce a new corpus for structuring legal documents. In particular, we introduce a corpus of legal judgment documents in English that are segmented into topical and coherent parts. Each of these parts is annotated with a label coming from a list of pre-defined Rhetorical Roles. We develop baseline models for automatically predicting rhetorical roles in a legal document based on the annotated corpus. Further, we show the application of rhetorical roles to improve performance on the tasks of summarization and legal judgment prediction. We release the corpus and baseline model code along with the paper.
研究の動機と目的
- 話題的に整合した修辞役割(RRs)にラベリングされたインドの法判決の大規模注釈コーパスを作成する。
- 文レベルでの自動RRラベル付けのためのトランスフォーマーベースのベースラインを開発する。
- 裁判判決の抽出型・要約型要約への修辞役割の応用を示す。
- RR予測が法的判決予測を改善する方法を示す。
- 法的NLP研究を推進するためにコーパスとベースラインコードを公開する。
提案手法
- English の 354 件のインド法判決を文レベルで 12 個の RR ラベル+NONEで注釈付けする。
- キャリブレーション、MOOC、グラウンドトゥルース照合、および多数決審定を含むクラウドソーシングデータ注釈パイプラインを使用。
- トランスフォーマー-based アーキテクチャ(BERT_CRF、BERT_only、SciBERT-HSLN)を用いたベースラインRR予測を評価。
- SciBERT-HSLN内でBi-LSTMと注意機構を用いて文の表現とCRFでのラベリングを強化する。
- RR予測を抽出的要約(BERTSUM RR)および抽象的要約(Legal Pegasus RR)に適用。
- 最後の-512トークンでXLNetを用いた裁判判決予測のRRベースフィルタリングをテスト(ANALYSISのみの文にも適用)。
実験結果
リサーチクエスチョン
- RQ1修辞役割で注釈された大規模な英語のインド法判決コーパスを作成し、品質を満たすクラウドソースを得られるか?
- RQ2長大な法的文書において、トランスフォーマーベースのモデルは文レベルの修辞役割を正確に予測できるか?
- RQ3修辞役割は判決の抽出型/抽象的要約および判決予測などの下流タスクを改善するか?
- RQ4RRベースの手法はドメイン外の法領域にどの程度一般化するか?
- RQ5特定のRRベースの入力を選択することが判決予測性能に与える影響は?
主な発見
| Model | Metric | Value |
|---|---|---|
| RR Prediction Baselines | BERT_CRF (in-domain) | 0.23 F1 |
| RR Prediction Baselines | BERT_only (in-domain) | 0.67 F1 |
| RR Prediction Baselines | SciBERT-HSLN (in-domain) | 0.78 F1 |
| RR Prediction Baselines | BERT_CRF (in-domain) | 0.24 precision / 0.24 recall |
| RR Prediction Baselines | BERT_only (in-domain) | 0.67 precision / 0.68 recall |
| RR Prediction Baselines | SciBERT-HSLN (in-domain) | 0.79 precision / 0.80 recall |
- SciBERT-HSLN は内部ドメインのRR予測で最良を示し、加重F1は0.78。
- BERT-only ベースラインは内部ドメインで0.67の加重F1、BERT_CRFは内部ドメインで0.23の加重F1。
- 外部ドメインのRR予測全体F1は0.79で、ラベルごとに性能は異なる。
- 抽出的要約では、BERTSUM RRがROUGE-1/2/Lを0.62/0.46/0.61に改善、一方BERTSUMは0.60/0.42/0.59。
- 抽象的要約では、Legal Pegasus RRがROUGE-1/2/Lを0.56/0.36/0.48、Legal Pegasusは0.55/0.34/0.47。
- 判決予測をXLNet_last512で行うと0.59のF1、XLNet_last512_Analysisで0.62のF1。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。