QUICK REVIEW

[論文レビュー] A Dataset for Statutory Reasoning in Tax Law Entailment and Question Answering

Nils Holzenberger, Andrew Blair-Stanek|arXiv (Cornell University)|May 11, 2020

Artificial Intelligence in Law被引用数 26

ひとこと要約

この論文は、米国租税法の法規と、規範的ルールに基づく正確な推論を要する自然言語質問から構成される、StAtutory Reasoning Assessment (SARA) データセットを紹介する。最高水準のNLPモデルを法的テキストに微調整しても、100%の正確性を達成する手作業で構築されたPrologベースの記号的システムに比べて性能が著しく低いことが明らかとなり、自然言語で表現された法的拘束力のあるルールに対する推論の難しさが浮き彫りになった。

ABSTRACT

Legislation can be viewed as a body of prescriptive rules expressed in natural language. The application of legislation to facts of a case we refer to as statutory reasoning, where those facts are also expressed in natural language. Computational statutory reasoning is distinct from most existing work in machine reading, in that much of the information needed for deciding a case is declared exactly once (a law), while the information needed in much of machine reading tends to be learned through distributional language statistics. To investigate the performance of natural language understanding approaches on statutory reasoning, we introduce a dataset, together with a legal-domain text corpus. Straightforward application of machine reading models exhibits low out-of-the-box performance on our questions, whether or not they have been fine-tuned to the legal domain. We contrast this with a hand-constructed Prolog-based system, designed to fully solve the task. These experiments support a discussion of the challenges facing statutory reasoning moving forward, which we argue is an interesting real-world task that can motivate the development of models able to utilize prescriptive rules specified in natural language.

研究の動機と目的

法的自然言語処理のための大規模かつ体系的なリソース、特に法的規範的推論の分野における不足を補うため。
現代のNLPモデルが、自然言語で表現された規範的法的ルールに対して効果的に推論できるかを調査すること。
現実世界の税法における法的解釈の複雑さを捉えたベンチマークデータセットを提供すること。
ニューラルNLPモデルと記号的推論システムを対比させ、現在のアプローチの限界を明らかにすること。
法的NLPにおける意味解析とデータ効率の良い学習の分野における今後の研究を促進すること。

提案手法

データセットSARAは、米国収支法典の条項から構成され、法的用語や条件を定義するルールに焦点を当てる。
各例は、自然言語で記述された法的ルールと事実の事例記述から構成され、ルールに基づく推論を要する質問が含まれる。
手作業で記述されたPrologベースの記号的システムは、各法的ルールを論理的述語として表現し、事例に対して正確な推論を実行する。
ニューラルNLPモデルは法的ドメインのテキストで微調整され、SARAデータセット上で帰納と質問応答のタスクを評価する。
ニューラルおよび記号的システムの両方の性能を、同じテストケース上で比較することで、推論能力のみを隔離して評価する。
今後の法的NLPおよび記号的推論分野の研究を支援するため、データセットを公開する。

実験結果

リサーチクエスチョン

RQ1最高水準のニューラル機械読解モデルは、顕著な微調整なしに、税法における法的規範的推論タスクに一般化できるか？
RQ2ニューラルNLPモデルと記号的Prologベースのシステムの間で、法的規範的推論タスクにおける性能にどのような差があるか？
RQ3現在のNLPモデルが、規範的法的言語の論理的構造をどの程度正しく捉えられていないか？
RQ4自然言語で書かれた法的法規に基づく、データ効率的かつ正確なシステムを構築する際の主な課題は何か？
RQ5高い性能を達成するには意味解析が必要なのか、それともエンドツーエンドのニューラルモデルをより効果的にすることができるか？

主な発見

法的ドメインのテキストで微調整されたNLPモデルでも、SARAデータセット上で初期段階の性能が著しく低く、規範的法的ルールに対する推論における顕著な限界を示している。
手作業で構築されたPrologベースの記号的システムは、すべてのテストケースで100%の正確性を達成しており、ルールが正しく符号号化されていれば、記号的推論がこのタスクを完全に解けることを示している。
ニューラルモデルと記号的システムの間の性能格差は、現在のNLPアプローチが、法的言語の論理的構造を安定して捉えることができていないことを示唆している。
このデータセットは、自然言語で書かれた法的テキストでさえ、分布的NLPモデルが解釈しにくい、非常に構造的でルールベースの論理を内包していることを明らかにした。
高品質な法的学習データの不足と高コストは、この分野におけるデータ集約型ニューラルモデルのスケーラビリティを制限している。
結果から、今後の進展は、意味解析の向上または法的推論のためのよりデータ効率の良い学習メカニズムに依存する可能性があると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。