[논문 리뷰] Can GPT-3 Perform Statutory Reasoning?
논문은 SARA 데이터셋에서 GPT-3(text-davinci-003)의 법령 해석 능력을 평가하고, 이전 방법들보다 성능이 향상되었음을 확인하지만 특정 오류를 지적하고 GPT-3의 미국 법전 지식이 불완전하며 합성된 보지 않은 법령에 대한 추론이 미흡하다는 점을 드러낸다.
Statutory reasoning is the task of reasoning with facts and statutes, which are rules written in natural language by a legislature. It is a basic legal skill. In this paper we explore the capabilities of the most capable GPT-3 model, text-davinci-003, on an established statutory-reasoning dataset called SARA. We consider a variety of approaches, including dynamic few-shot prompting, chain-of-thought prompting, and zero-shot prompting. While we achieve results with GPT-3 that are better than the previous best published results, we also identify several types of clear errors it makes. We investigate why these errors happen. We discover that GPT-3 has imperfect prior knowledge of the actual U.S. statutes on which SARA is based. More importantly, we create simple synthetic statutes, which GPT-3 is guaranteed not to have seen during training. We find GPT-3 performs poorly at answering straightforward questions about these simple synthetic statutes.
연구 동기 및 목표
- GPT-3의 미국 세법 질문(SARA) 벤치마크를 활용한 법령 해석 능력을 평가한다.
- 프롬프트 전략(제로샷, 파샷, 체인-오브-생각)이 정확도에 미치는 영향을 조사한다.
- 훈련 중 보지 못한 합성 법령에서의 GPT-3의 지식과 추론 능력을 검토한다.
- 오류를 분석하여 한계가 사전지식, 프롬프트 설계, 또는 모델의 고유한 추론 중 어디에서 기인하는지 규명한다.
- 대형 언어 모델의 법령 해석 연구를 위한 향후 연구 방향에 통찰을 제공한다.
제안 방법
- SARA 데이터셋은 아홉 개의 미국 세법 조항과 376건의 사례(Entailment/Contradiction 질문)로 구성된다.
- 다양한 프롬프트 체계를 사용하여 GPT-3(text-davinci-003)를 테스트한다: 제로샷, 4-shot 다이나믹 프롬프트, 10-shot 핸드크래프티드 체인-오브-생각 프롬프트.
- 사전에 법령 텍스트를 포함하는 프롬프트 여부에 따라 사전 지식 의존도를 평가한다.
- GPT-3가 명확한 Entailment/Contradiction 결과를 출력하지 못하는 경우에는 Answer Extraction 단계를 적용한다.
- “Let’s think step by step” 프롬프트를 도입하여 추론에 미치는 영향을 테스트한다.
- GPT-3의 결과를 이전의 BERT 기반 최신 기법 베이스라인 및 다수결 베이스라인과 비교한다.

실험 결과
연구 질문
- RQ1GPT-3가 미국 세법 문제의 구조화된 데이터세트에서 기본적인 법령 해석을 얼마나 잘 수행할 수 있는가?
- RQ2다양한 프롬프트 전략이GPT-3의 법령 해석 정확도에 어떤 영향을 미치는가?
- RQ3GPT-3가 미국 법전의 사전 지식에 얼마나 의존하는지, 주어진 법령으로부터의 추론의 정도는 어느 정도인가?
- RQ4GPT-3가 학습 중 보지 못한 합성 법령에서 어떤 성능을 보이며, 이는 추론 능력에 대해 무엇을 시사하는가?
- RQ5단계별 추론으로 프롬프트를 제공하면 정확도가 향상되는가, 그리고 출력에 체계적인 오류가 존재하는가?
주요 결과
| 프롬프트 유형 | 법령 포함 여부 | 다음 문장을 단계별로 생각하기 | 숫자가 있는 사례의 정확도 | 숫자가 없는 사례의 정확도 | 집계 정확도 |
|---|---|---|---|---|---|
| 4-shot dynamic | Y | Y | 60 ± 10 (43/72) | 61 ± 16 (17/28) | 60 ± 8 (60/100) |
| 4-shot dynamic | Y | N | 47 ± 10 (34/72) | 50 ± 16 (14/28) | 48 ± 8 (48/100) |
| 4-shot dynamic | N | Y | 47 ± 10 (34/72) | 50 ± 16 (14/28) | 48 ± 8 (48/100) |
| 4-shot dynamic | N | N | 49 ± 10 (35/72) | 64 ± 16 (18/28) | 53 ± 8 (53/100) |
| zero-shot | Y | Y | 61 ± 10 (44/72) | 75 ± 14 (21/28) | 65 ± 8 (65/100) |
| zero-shot | Y | N | 74 ± 0 9 (53/72) | 64 ± 16 (18/28) | 71 ± 8 (71/100) |
| zero-shot | N | Y | 49 ± 10 (35/72) | 50 ± 16 (14/28) | 49 ± 8 (49/100) |
| zero-shot | N | N | 38 ± 10 (27/72) | 39 ± 16 (11/28) | 38 ± 8 (38/100) |
| 10-shot hand-crafted chain-of-thought | Y | N | 56 ± 10 (40/72) | 61 ± 16 (17/28) | 57 ± 8 (57/100) |
| 10-shot hand-crafted chain-of-thought | N | N | 54 ± 10 (39/72) | 64 ± 16 (18/28) | 57 ± 8 (57/100) |
| BERT-based state of the art (Holzenberger and Durme, 2021) | Y | N | 56 ± 10 (40/72) | 68 ± 15 (19/28) | 59 ± 8 (59/100) |
| Majority baseline | N | N | 50 ± 10 (36/72) | 50 ± 16 (14/28) | 50 ± 8 (50/100) |
- GPT-3는 SARA에서 이전 접근법보다 향상된 성능을 보이지만 여전히 법령 해석에서 분명한 오류를 보인다.
- 프롬프트 전략이 정확도에 크게 영향을 미치며; 제로샷, 4-shot 다이나믹, 체인-오브-생각 프롬프트는 다양한 결과를 보이며, 단계별 프롬프트의 체계적 이점은 제한적이다.
- GPT-3는 미국 법전의 지식이 불완전하고 때로는 잘못된 지식을 가지며 섹션을 혼동하거나 하위 단락을 잘못 서술할 수 있다.
- 학습 중 보지 못한 합성 법령에서의 테스트에서 GPT-3의 성능은 저조하다(단순 2-와이즈 2-딥에서 제로샷 약 78%, 2샷 약 81%, 깊이/너비 증가에 따라 감소).
- 두샷 프롬프트는 제로샷보다 성능을 향상시키지만 더 복잡한 법령(예: 3-와이드, 3-딥)에서는 여전히 완벽에 멀다.
- SARA에서 GPT-3는 최적의 설정에서 최대 약 71%의 총합 정확도에 도달하며, 이전 최첨단을 능가하지만 여전히 개선의 여지가 크다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.