QUICK REVIEW

[論文レビュー] Legal Prompt Engineering for Multilingual Legal Judgement Prediction

Dietrich Trautmann, Alina Petrova|arXiv (Cornell University)|Dec 5, 2022

Artificial Intelligence in Law被引用数 31

ひとこと要約

この論文は、ECHRの長文法的文書（英語）および FSCS（ドイツ語、フランス語、イタリア語）の多言語法的判断予測に対するゼロショットの法的プロンプトエンジニアリングを調査し、ゼロショット prompting は単純なベースラインを上回るが、監督付きの最先端モデルには及ばないことを示している。

ABSTRACT

Legal Prompt Engineering (LPE) or Legal Prompting is a process to guide and assist a large language model (LLM) with performing a natural legal language processing (NLLP) skill. Our goal is to use LPE with LLMs over long legal documents for the Legal Judgement Prediction (LJP) task. We investigate the performance of zero-shot LPE for given facts in case-texts from the European Court of Human Rights (in English) and the Federal Supreme Court of Switzerland (in German, French and Italian). Our results show that zero-shot LPE is better compared to the baselines, but it still falls short compared to current state of the art supervised approaches. Nevertheless, the results are important, since there was 1) no explicit domain-specific data used - so we show that the transfer to the legal domain is possible for general-purpose LLMs, and 2) the LLMs where directly applied without any further training or fine-tuning - which in turn saves immensely in terms of additional computational costs.

研究の動機と目的

長文の法的文書に対するゼロショットの法的プロンプトエンジニアリング（LPE）が法的判断予測（LJP）において実現可能であることを示す。
欧州人権裁判所（英語）およびスイス連邦最高裁判所（ドイツ語、フランス語、イタリア語）のデータセットに対する多言語LJPの性能を評価する。
ゼロショットLPEがベースラインおよびドメイン特化の微調整を行わない監督付き最先端結果とどう比較されるかを評価する。

提案手法

長文の文書に対するLJPを自然言語の質問課題へ変換するために、離散的で手動の法的プロンプトを用いる。
データ特化の訓練を行わず、mGPT、GPT-J-6B、GPT-NeoX-20B などの多言語LLMでゼロショット promptingを適用する。
非常に長い入力（最大2048トークン）に対処しつつ、出力をA対Bの二値判断へ導くように、反復的にプロンプトを設計する。
ECHR（英語）およびFSCS（ドイツ語、フランス語、イタリア語）でプロンプトを評価し、macro-F1、精度、再現率などの指標を用いる。
モデルの推論を理解し、真のラベルと一致しない理由を説明するために、完了サンプルを分析する。

実験結果

リサーチクエスチョン

RQ1タスク固有の微調整を行わずに、長大な実務裁判文書に対してゼロショットの法的プロンプトエンジニアリング（LPE）は法的判断予測（LJP）を可能にするか？
RQ2ゼロショットLPEは、多言語法的データセット（ECHR英語、FSCSドイツ語・フランス語・イタリア語）で、ベースラインおよび監督モデルと比べてどのように性能を示すか？
RQ3ゼロショットLJPで最も高いmacro-F1などの指標をもたらす、どのようなプロンプト設計と出力設定（例：トークン長）か？
RQ4モデルの完結出力が示す定性的特徴（例：列挙された条文、説明など）は何か、そしてそれらはタスク性能とどう関係するか？

主な発見

LLMを用いるゼロショットLPEは、LJPのmacro-F1、精度、再現率で単純なベースラインを上回るが、監督付きの最先端結果には及ばない。
英語、ドイツ語、フランス語、イタリア語の各言語で、mGPT、GPT-J-6B、GPT-NeoX-20B などの多言語LLMを用いてプロンプトは効果的だった。
長文は2048トークンに切り詰められた。最良の性能を得るには出力系列長の調整が必要で、最適は約50トークン。
完結にはばらつきがあり、いくつかの出力は違反条文を列挙したり説明を提供したりするが、すべてのターゲット説明を1つのケースも満たしていない。
監督付きの完全なモデルと比較すると、ゼロショットプロンプトには明確な性能格差があるが、追加の微調整やタスク固有データなしでドメイン移行性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。