Skip to main content
QUICK REVIEW

[논문 리뷰] Can GPT-3 Perform Statutory Reasoning?

Andrew Blair-Stanek, Nils Holzenberger|arXiv (Cornell University)|2023. 02. 13.
Artificial Intelligence in Law인용 수 8
한 줄 요약

논문은 SARA 데이터셋에서 GPT-3(text-davinci-003)의 법령 해석 능력을 평가하고, 이전 방법들보다 성능이 향상되었음을 확인하지만 특정 오류를 지적하고 GPT-3의 미국 법전 지식이 불완전하며 합성된 보지 않은 법령에 대한 추론이 미흡하다는 점을 드러낸다.

ABSTRACT

Statutory reasoning is the task of reasoning with facts and statutes, which are rules written in natural language by a legislature. It is a basic legal skill. In this paper we explore the capabilities of the most capable GPT-3 model, text-davinci-003, on an established statutory-reasoning dataset called SARA. We consider a variety of approaches, including dynamic few-shot prompting, chain-of-thought prompting, and zero-shot prompting. While we achieve results with GPT-3 that are better than the previous best published results, we also identify several types of clear errors it makes. We investigate why these errors happen. We discover that GPT-3 has imperfect prior knowledge of the actual U.S. statutes on which SARA is based. More importantly, we create simple synthetic statutes, which GPT-3 is guaranteed not to have seen during training. We find GPT-3 performs poorly at answering straightforward questions about these simple synthetic statutes.

연구 동기 및 목표

  • GPT-3의 미국 세법 질문(SARA) 벤치마크를 활용한 법령 해석 능력을 평가한다.
  • 프롬프트 전략(제로샷, 파샷, 체인-오브-생각)이 정확도에 미치는 영향을 조사한다.
  • 훈련 중 보지 못한 합성 법령에서의 GPT-3의 지식과 추론 능력을 검토한다.
  • 오류를 분석하여 한계가 사전지식, 프롬프트 설계, 또는 모델의 고유한 추론 중 어디에서 기인하는지 규명한다.
  • 대형 언어 모델의 법령 해석 연구를 위한 향후 연구 방향에 통찰을 제공한다.

제안 방법

  • SARA 데이터셋은 아홉 개의 미국 세법 조항과 376건의 사례(Entailment/Contradiction 질문)로 구성된다.
  • 다양한 프롬프트 체계를 사용하여 GPT-3(text-davinci-003)를 테스트한다: 제로샷, 4-shot 다이나믹 프롬프트, 10-shot 핸드크래프티드 체인-오브-생각 프롬프트.
  • 사전에 법령 텍스트를 포함하는 프롬프트 여부에 따라 사전 지식 의존도를 평가한다.
  • GPT-3가 명확한 Entailment/Contradiction 결과를 출력하지 못하는 경우에는 Answer Extraction 단계를 적용한다.
  • “Let’s think step by step” 프롬프트를 도입하여 추론에 미치는 영향을 테스트한다.
  • GPT-3의 결과를 이전의 BERT 기반 최신 기법 베이스라인 및 다수결 베이스라인과 비교한다.
Figure 2. Prompts used in Section 3 to pose SARA test cases to GPT-3. Top boxes, in orange, contain statutes; depending on the setting, statutes may or may not be included. Example cases are in blue; in zero-shot there are no example cases. At the bottom, in green, are test cases. Text highlighted i
Figure 2. Prompts used in Section 3 to pose SARA test cases to GPT-3. Top boxes, in orange, contain statutes; depending on the setting, statutes may or may not be included. Example cases are in blue; in zero-shot there are no example cases. At the bottom, in green, are test cases. Text highlighted i

실험 결과

연구 질문

  • RQ1GPT-3가 미국 세법 문제의 구조화된 데이터세트에서 기본적인 법령 해석을 얼마나 잘 수행할 수 있는가?
  • RQ2다양한 프롬프트 전략이GPT-3의 법령 해석 정확도에 어떤 영향을 미치는가?
  • RQ3GPT-3가 미국 법전의 사전 지식에 얼마나 의존하는지, 주어진 법령으로부터의 추론의 정도는 어느 정도인가?
  • RQ4GPT-3가 학습 중 보지 못한 합성 법령에서 어떤 성능을 보이며, 이는 추론 능력에 대해 무엇을 시사하는가?
  • RQ5단계별 추론으로 프롬프트를 제공하면 정확도가 향상되는가, 그리고 출력에 체계적인 오류가 존재하는가?

주요 결과

프롬프트 유형법령 포함 여부다음 문장을 단계별로 생각하기숫자가 있는 사례의 정확도숫자가 없는 사례의 정확도집계 정확도
4-shot dynamicYY60 ± 10 (43/72)61 ± 16 (17/28)60 ± 8 (60/100)
4-shot dynamicYN47 ± 10 (34/72)50 ± 16 (14/28)48 ± 8 (48/100)
4-shot dynamicNY47 ± 10 (34/72)50 ± 16 (14/28)48 ± 8 (48/100)
4-shot dynamicNN49 ± 10 (35/72)64 ± 16 (18/28)53 ± 8 (53/100)
zero-shotYY61 ± 10 (44/72)75 ± 14 (21/28)65 ± 8 (65/100)
zero-shotYN74 ± 0 9 (53/72)64 ± 16 (18/28)71 ± 8 (71/100)
zero-shotNY49 ± 10 (35/72)50 ± 16 (14/28)49 ± 8 (49/100)
zero-shotNN38 ± 10 (27/72)39 ± 16 (11/28)38 ± 8 (38/100)
10-shot hand-crafted chain-of-thoughtYN56 ± 10 (40/72)61 ± 16 (17/28)57 ± 8 (57/100)
10-shot hand-crafted chain-of-thoughtNN54 ± 10 (39/72)64 ± 16 (18/28)57 ± 8 (57/100)
BERT-based state of the art (Holzenberger and Durme, 2021)YN56 ± 10 (40/72)68 ± 15 (19/28)59 ± 8 (59/100)
Majority baselineNN50 ± 10 (36/72)50 ± 16 (14/28)50 ± 8 (50/100)
  • GPT-3는 SARA에서 이전 접근법보다 향상된 성능을 보이지만 여전히 법령 해석에서 분명한 오류를 보인다.
  • 프롬프트 전략이 정확도에 크게 영향을 미치며; 제로샷, 4-shot 다이나믹, 체인-오브-생각 프롬프트는 다양한 결과를 보이며, 단계별 프롬프트의 체계적 이점은 제한적이다.
  • GPT-3는 미국 법전의 지식이 불완전하고 때로는 잘못된 지식을 가지며 섹션을 혼동하거나 하위 단락을 잘못 서술할 수 있다.
  • 학습 중 보지 못한 합성 법령에서의 테스트에서 GPT-3의 성능은 저조하다(단순 2-와이즈 2-딥에서 제로샷 약 78%, 2샷 약 81%, 깊이/너비 증가에 따라 감소).
  • 두샷 프롬프트는 제로샷보다 성능을 향상시키지만 더 복잡한 법령(예: 3-와이드, 3-딥)에서는 여전히 완벽에 멀다.
  • SARA에서 GPT-3는 최적의 설정에서 최대 약 71%의 총합 정확도에 도달하며, 이전 최첨단을 능가하지만 여전히 개선의 여지가 크다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.