[論文レビュー] The Czech Court Decisions Corpus (CzCDC): Availability as the First Step
本論文は、チェコ憲法院、最高行政法院、および最高裁判所(1993–2018年)の237,723件の平文判決からなる、無料で利用可能なチェコ法廷判決コーパス(CzCDC)を紹介する。自由情報要求とウェブスクレイピングを用いて収集されたこのコーパスは、自然言語処理(NLP)および法的研究のためのバルクアクセスを可能にし、これまでのデータの入手可能性、フォーマットの不一致、商業的アクセス障壁といった課題を克服する。
In this paper, we describe the Czech Court Decision Corpus (CzCDC). CzCDC is a dataset of 237,723 decisions published by the Czech apex (or top-tier) courts, namely the Supreme Court, the Supreme Administrative Court and the Constitutional Court. All the decisions were published between 1st January 1993 and 30th September 2018. Court decisions are available on the webpages of the respective courts or via commercial databases of legal information. This often leads researchers interested in these decisions to reach either to respective court or to commercial provider. This leads to delays and additional costs. These are further exacerbated by a lack of inter-court standard in the terms of the data format in which courts provide their decisions. Additionally, courts' databases often lack proper documentation. Our goal is to make the dataset of court decisions freely available online in consistent (plain) format to lower the cost associated with obtaining data for future research. We believe that simplified access to court decisions through the CzCDC could benefit other researchers. In this paper, we describe the processing of decisions before their inclusion into CzCDC and basic statistics of the dataset. This dataset contains plain texts of court decisions and these texts are not annotated for any grammatical or syntactical features.
研究の動機と目的
- チェコ最高裁判所の判決に対するバルクかつ標準化されたアクセスの欠如に応えること。これは、法的研究およびNLPにとって不可欠である。
- 特許権のあるデータベース、フォーマットの不一致、および法廷ウェブサイトからの制限付きバルクアクセスといった障壁を克服すること。
- 研究コストの低減とチェコにおける法的NLP開発の加速を図るため、自由にアクセス可能で一貫性があり、十分に文書化されたコーパスを提供すること。
- 将来のアノテーション、メタデータの拡充、およびチェコ法制度における比較法的研究の基盤となるリソースを確立すること。
提案手法
- 公式法廷ウェブサイトから判決を収集:憲法裁判所(nalus.usoud.cz)、最高行政裁判所(nssoud.cz)、最高裁判所(nsoud.cz)。
- 自由情報要求を通じてデータを要請。憲法裁判所(RTF形式)および最高行政裁判所(PDF形式)から完全なデータセットを取得し、最高裁判所は段階的にスクレイピングした。
- すべての文書をプレーンテキスト形式に変換し、コーパス全体にわたるアクセシビリティと一貫性を確保した。
- 各判決について、ケース番号、日付、裁判所種別などの基本メタデータを保持し、将来的な分析およびインデックス作成を支援した。
- 最終的なコーパスをLINDAT/CLARINリポジトリにアップロードし、恒久的識別子(hdl.handle.net/11372/LRT-3052)を付与した。
- 商業的法的データベースとの比較を通じてデータの完全性を確認し、カバレッジを推定した。推定では、憲法裁判所が99.5%、最高裁判所が91%、最高行政裁判所が99.9%であった。
実験結果
リサーチクエスチョン
- RQ1中央集権的で標準化され、無料で利用可能なデータセットを通じて、チェコ法廷判決へのバルクアクセスをどの程度改善できるか。
- RQ2平文でアノテーションのない法廷判決の入手可能性が、英語以外の法的制度における法的NLPおよび計算言語学の研究にどのような影響を与えるか。
- RQ3チェコ最高裁判所間におけるデータの入手可能性とフォーマットの一貫性の限界は何か。それらはどのように緩和できるか。
- RQ4公開可能な法廷判決コーパスが、将来のアノテーション、メタデータの拡充、およびチェコ法的分野における高度なNLPタスクの基盤として機能できるか。
主な発見
- CzCDCには、1993年1月1日から2018年9月30日までに発行されたチェコ最高裁判所、最高行政裁判所、および憲法裁判所の合計237,723件の判決が含まれる。
- コーパス全体は460,524,867語を含み、その内訳は憲法裁判所が21.4%(73,086件)、最高裁判所が48.65%(111,977件)、最高行政裁判所が29.93%(52,660件)である。
- カバレッジ推定によると、商業的データベースと比較して、憲法裁判所判決の99.5%、最高裁判所判決の91%、最高行政裁判所判決の99.9%がコーパスに含まれている。
- データセットはメタデータを最小限に抑えたプレーンテキスト形式で提供されており、NLPツールや研究プロトコルとの広範な互換性とアクセシビリティを確保している。
- コーパスはLINDAT/CLARINリポジトリにホスティングされており、恒久的識別子(hdl.handle.net/11372/LRT-3052)が付与されており、長期的なアクセスと引用を可能にしている。
- 著者らは、現在のコーパスが基盤的ステップであると認識しており、将来のメタデータ拡充、アノテーション、および法的NLPワークフローへの統合の可能性を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。