[論文レビュー] Can GPT-3 Perform Statutory Reasoning?
この論文は SARA データセットを用いて GPT-3(text-davinci-003) の法定推論を評価し、従来手法より性能の改善を示す一方で特定の誤りを指摘し、GPT-3 の米国法典に関する知識が不完全であること、さらに合成された未見の法令に対する推論が不十分であることを明らかにしています。
Statutory reasoning is the task of reasoning with facts and statutes, which are rules written in natural language by a legislature. It is a basic legal skill. In this paper we explore the capabilities of the most capable GPT-3 model, text-davinci-003, on an established statutory-reasoning dataset called SARA. We consider a variety of approaches, including dynamic few-shot prompting, chain-of-thought prompting, and zero-shot prompting. While we achieve results with GPT-3 that are better than the previous best published results, we also identify several types of clear errors it makes. We investigate why these errors happen. We discover that GPT-3 has imperfect prior knowledge of the actual U.S. statutes on which SARA is based. More importantly, we create simple synthetic statutes, which GPT-3 is guaranteed not to have seen during training. We find GPT-3 performs poorly at answering straightforward questions about these simple synthetic statutes.
研究の動機と目的
- GPT-3 の法定推論能力を米国税法問問題データセット(SARA)で評価する。
- prompting 戦略(ゼロショット、4-shot dynamic、チェイン・オブ・思考) が正確性に与える影響を調査する。
- GPT-3 の米国法典に関する知識と、学習時に見ていない合成法令に対する推論能力を検証する。
- 誤りを分析し、限界が事前知識、プロンプト設計、あるいはモデルの推論そのものに起因するのかを識別する。
- 将来の大規模言語モデルの法定推論研究を導く洞察を提供する。
提案手法
- SARA データセットは米国税法の九つの条項と 376 ケース(Entailment/Contradiction 問題)から成る。
- GPT-3(text-davinci-003)を複数の prompting レ regimes で評価する:ゼロショット、4-shot dynamic prompting、10-shot 手作りチェーン・オブ・思考 prompts。
- プロンプト内に法令本文を含めるかどうかで既知知識への依存を評価する。
- GPT-3 が明確な Entailment/Contradiction 結果を出さない場合に Answer Extraction 段を適用する。
- “Let’s think step by step” prompts を組み込み、推論への影響を検証する。
- GPT-3 の結果を BERT ベースの最先端ベースラインおよび majority baseline と比較する。

実験結果
リサーチクエスチョン
- RQ1GPT-3 は米国税法問題の構造化データセットに対して基本的な法定推論をどの程度正確に行えるか?
- RQ2異なる prompting 戦略が GPT-3 の法定推論の正確性に与える影響は何か?
- RQ3GPT-3 は米国 code の事前知識に依存するのか、それとも与えられた法令から推論しているのか、どの程度か?
- RQ4GPT-3 は訓練時に見ていない合成法令でどの程度推論能力を発揮するか?推論能力について何が明らかになるか?
- RQ5ステップごとの推論を促すプロンプティングは正確性を向上させるのか、出力に体系的な誤りはあるのか?
主な発見
| Prompt type | Include Statute | Let’s think step by step | Accuracy on cases with numbers | Accuracy on cases with no numbers | Aggregate accuracy |
|---|---|---|---|---|---|
| 4-shot dynamic | Y | Y | 60 ± 10 (43/72) | 61 ± 16 (17/28) | 60 ± 8 (60/100) |
| 4-shot dynamic | Y | N | 47 ± 10 (34/72) | 50 ± 16 (14/28) | 48 ± 8 (48/100) |
| 4-shot dynamic | N | Y | 47 ± 10 (34/72) | 50 ± 16 (14/28) | 48 ± 8 (48/100) |
| 4-shot dynamic | N | N | 49 ± 10 (35/72) | 64 ± 16 (18/28) | 53 ± 8 (53/100) |
| zero-shot | Y | Y | 61 ± 10 (44/72) | 75 ± 14 (21/28) | 65 ± 8 (65/100) |
| zero-shot | Y | N | 74 ± 0 9 (53/72) | 64 ± 16 (18/28) | 71 ± 8 (71/100) |
| zero-shot | N | Y | 49 ± 10 (35/72) | 50 ± 16 (14/28) | 49 ± 8 (49/100) |
| zero-shot | N | N | 38 ± 10 (27/72) | 39 ± 16 (11/28) | 38 ± 8 (38/100) |
| 10-shot hand-crafted chain-of-thought | Y | N | 56 ± 10 (40/72) | 61 ± 16 (17/28) | 57 ± 8 (57/100) |
| 10-shot hand-crafted chain-of-thought | N | N | 54 ± 10 (39/72) | 64 ± 16 (18/28) | 57 ± 8 (57/100) |
| BERT-based state of the art (Holzenberger and Durme, 2021) | Y | N | 56 ± 10 (40/72) | 68 ± 15 (19/28) | 59 ± 8 (59/100) |
| Majority baseline | N | N | 50 ± 10 (36/72) | 50 ± 16 (14/28) | 50 ± 8 (50/100) |
- GPT-3 は SARA で従来手法より性能を改善するが、法定推論には依然として明確な誤りを示す。
- prompting 戦略は正確性に大きく影響を与え、ゼロショット、4-shot dynamic、チェイン・オブ・思考 prompts は成果にばらつきを生み、ステップバイステップ prompts からの体系的利得は限定的。
- GPT-3 は米国コードの知識が不完全で、条項の混同や小項の誤記載を起こすことがある。
- 訓練時に見ていない合成法令を対象とした場合、GPT-3 の性能は低く推移する(単純な 2-wide 2-deep でゼロショット約 78%、2-shot で約 81%、深さ・幅が増すと低下)。
- 2-shot prompting はゼロショットより性能を改善するが、より複雑な法令(例:3-wide、3-deep)では依然として完璧には近づかない。
- SARA において、GPT-3 は最良設定で最大約 71% の総合正解率を達成し、従来の最先端を上回るが、改善の余地が大きく残る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。