Skip to main content
QUICK REVIEW

[論文レビュー] Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence

John J. Nay, David Karamardian|arXiv (Cornell University)|Jun 12, 2023
Artificial Intelligence in Law被引用数 13
ひとこと要約

この論文は、LLMs が税法における法的推論をどのように獲得・向上させるかを検証し、モデルリリースごとの新たな能力の出現と、文脈および prompting が性能に与える影響を示している。

ABSTRACT

Better understanding of Large Language Models' (LLMs) legal analysis abilities can contribute to improving the efficiency of legal services, governing artificial intelligence, and leveraging LLMs to identify inconsistencies in law. This paper explores LLM capabilities in applying tax law. We choose this area of law because it has a structure that allows us to set up automated validation pipelines across thousands of examples, requires logical reasoning and maths skills, and enables us to test LLM capabilities in a manner relevant to real-world economic lives of citizens and companies. Our experiments demonstrate emerging legal understanding capabilities, with improved performance in each subsequent OpenAI model release. We experiment with retrieving and utilising the relevant legal authority to assess the impact of providing additional legal context to LLMs. Few-shot prompting, presenting examples of question-answer pairs, is also found to significantly enhance the performance of the most advanced model, GPT-4. The findings indicate that LLMs, particularly when combined with prompting enhancements and the correct legal texts, can perform at high levels of accuracy but not yet at expert tax lawyer levels. As LLMs continue to advance, their ability to reason about law autonomously could have significant implications for the legal profession and AI governance.

研究の動機と目的

  • LLM が税法分析をどのように実施するかを理解し、モデルの進展に伴う emergent な能力を特定する。
  • 法的権威および文脈情報の提供が LLM の性能に与える影響を評価する。
  • 最も有能なモデルに対する few-shot prompting の効果を評価する。
  • 現在の LLM が専門家レベルの税法推論に達するかを判断する。

提案手法

  • 税法の例 thousands の自動検証パイプラインを設定して LLM 推論をテストする。
  • 適切な法的権威を収集・取り入れ、モデルに適切な法的文脈を提供する。
  • emergent capabilities を識別するため、OpenAI のモデルリリース間でパフォーマンスを比較する(例:以前のものと最新のもの)。
  • 問答ペアをモデルに提示して few-shot prompting を評価する。
  • 追加の法的文献と文脈が税法問題解決に及ぼす効果を分析する。

実験結果

リサーチクエスチョン

  • RQ1モデルがリリースを重ねるにつれ、LLMs は税法における emergent な法理解能力を示すか。
  • RQ2法的権威と文脈を提供することが、税法タスクにおける LLM の性能にどう影響するか。
  • RQ3少数ショット prompting が最も高度なモデルの税法推論の精度を有意に向上させるか。
  • RQ4現在の LLM は税法の専門家弁護士レベルの正確さと一貫性に達し得るか。

主な発見

  • LLMs は連続的なモデルリリースにより法的理解が向上している。
  • 法的権威と文脈情報の提供が性能を向上させる。
  • few-shot prompting は最も有能なモデルの結果を著しく改善する。
  • LLMs は税法タスクで高い正確さを達成できるが、まだ専門家レベルの税務弁護士の性能には達していない。
  • 進む LLM の能力は法曹界および AI ガバナンスに意味のある影響を与え得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。