QUICK REVIEW

[論文レビュー] The Cambridge Law Corpus: A Dataset for Legal AI Research

Andreas Östling, Holli Sargeant|arXiv (Cornell University)|Jan 1, 2023

Artificial Intelligence in Law被引用数 7

ひとこと要約

ケンブリッジ法務コーパス（CLC）は、16世紀から21世紀にかけての258,146件の英国裁判所事件を含む大規模かつ法的に・倫理的に配慮されたデータセットであり、学術研究用に公開されており、638件の事件について判決結果のアノテーションが付与されている。このデータセットは、GPT-3、GPT-4、RoBERTaなどの法的AIモデルのベンチマーク評価を可能にし、厳格な使用条件のもとで再現可能で責任ある法的NLP研究を支援する。

ABSTRACT

We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.

研究の動機と目的

英国法制度における大規模で高品質な機械可読法的コーパスの不足に対処すること。
法的に準拠し、倫理的に責任あるデータセットを提供し、法的AIモデルの学習および評価を可能にすること。
GPT-3、GPT-4、RoBERTaなどの最新の大規模言語モデル（LLM）が、現実の法的文脈における事件判決予測タスクにおいてどのように機能するかをベンチマーク化すること。
貢献者およびユーザーの責任を明確にしたバージョニング済みで拡張可能なデータセットインfra構築を実現すること。

提案手法

16世紀から21世紀にかけてのイングランドおよびウェールズの258,146件の英国裁判所事件の収集およびデジタル化。
研究利用を目的とした機械可読形式での構造化メタデータおよび原文テキストの含む。
法的専門家による638件の事件の判決結果のアノテーションにより、教師あり学習および評価を可能にした。
アノテート済みサブセットを用いて、トランスフォーマー基盤のモデル（GPT-3、GPT-4、RoBERTa）を用いた判決予測タスクの訓練および評価。
GDPR準拠および不正使用防止のため、厳格なアクセス制御、倫理的レビュー要件、ライセンス枠組みの実装。
変更履歴と今後の貢献・是正をサポートするGitを用いたバージョニングリリース。

実験結果

リサーチクエスチョン

RQ1GPT-3、GPT-4、RoBERTaなどの大規模言語モデルは、英国法的判決文から事件の判決結果を予測する際にどの程度効果的か。
RQ2一般用途向けLLMと微調整済みの法的特化モデルとの間には、英国の事件判決予測タスクにおいてどの程度のパフォーマンス格差が生じるか。
RQ3GDPRおよびプライバシー保護を含む法的・倫理的制約を、法的AIデータセットの設計および配布に体系的に統合する方法は何か。
RQ4歴史的法的言語および事件書式の多様性が、モデルの一般化能力およびデータ品質に与える影響は何か。
RQ5コミュニティの貢献を受けて、持続可能でバージョニング済みかつ拡張可能な法的コーパスを長期間にわたり維持・拡張する方法は何か。

主な発見

CLCデータセットには、16世紀から21世紀にかけての258,146件の英国裁判所事件が含まれており、法的専門家による638件の事件の判決結果がアノテートされている。
GPT-4およびRoBERTaモデルは、事件判決予測タスクにおいて優れたパフォーマンスを示し、英国法的AI分野における新たなベンチマークを確立した。
データセットは研究目的に限定したライセンスで公開されており、倫理的遵守要件（必須の倫理承認およびGDPR準拠）を含む。
データセットはGitを用いてバージョニングされ、今後の新規事件・機能・是正措置を段階的に更新する予定であり、公開の変更履歴が提供される。
ユーザーは、個人のデータ削除を要請でき、品質管理を経たコミュニティ貢献が可能である。
データセットはDOI（10.17863/CAM.100221）および利用規約と貢献ガイドラインを備えた専用プロジェクトページを通じてアクセス可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。