[論文レビュー] LawBench: Benchmarking Legal Knowledge of Large Language Models
LawBenchは、51のLLMを、20の中国民法系タスクに跨って評価し、法的知識の暗記・理解・応用を測定する。これにより、GPT-4が法域で依然として最も強力であることと、法的特化の微調整には限られた効果しかないことが示された。
Large language models (LLMs) have demonstrated strong capabilities in various aspects. However, when applying them to the highly specialized, safe-critical legal domain, it is unclear how much legal knowledge they possess and whether they can reliably perform legal-related tasks. To address this gap, we propose a comprehensive evaluation benchmark LawBench. LawBench has been meticulously crafted to have precise assessment of the LLMs' legal capabilities from three cognitive levels: (1) Legal knowledge memorization: whether LLMs can memorize needed legal concepts, articles and facts; (2) Legal knowledge understanding: whether LLMs can comprehend entities, events and relationships within legal text; (3) Legal knowledge applying: whether LLMs can properly utilize their legal knowledge and make necessary reasoning steps to solve realistic legal tasks. LawBench contains 20 diverse tasks covering 5 task types: single-label classification (SLC), multi-label classification (MLC), regression, extraction and generation. We perform extensive evaluations of 51 LLMs on LawBench, including 20 multilingual LLMs, 22 Chinese-oriented LLMs and 9 legal specific LLMs. The results show that GPT-4 remains the best-performing LLM in the legal domain, surpassing the others by a significant margin. While fine-tuning LLMs on legal specific text brings certain improvements, we are still a long way from obtaining usable and reliable LLMs in legal tasks. All data, model predictions and evaluation code are released in https://github.com/open-compass/LawBench/. We hope this benchmark provides in-depth understanding of the LLMs' domain-specified capabilities and speed up the development of LLMs in the legal domain.
研究の動機と目的
- LLMsが法的知識をどれだけ記憶するか、核心条文や法概念を含む.
- 法的文本における主体・事件・関係の理解を評価する。
- 現実的な推論課題を通じて法的知識を適用する能力を検証する。
- 中国語ドメインの法的LLM開発を導くベンチマークを提供する。
- 再現性のためデータ・予測・評価コードを公開する。
提案手法
- Bloomの分類を基に、階層的な分類法(memorization、understanding、applying)を用いたLawBenchを提案する。
- SLC、MLC、回帰、抽出、生成にわたる3つの認知レベルで、20の多様なタスクを構築する。
- 公平な比較のため、プロンプトを整形し、タスク固有の解答抽出ルールと指標を実装する。
- ゼロショットおよび様々な設定で、51 LLMs(多言語対応、中国語重視、法的専門特化)を評価する。
- SFT、RLHF、モデルサイズ、法的特化のファインチューニングなどの要因を分析して結果を解釈する。
- OpenCompassプラットフォームと統合されたオープンソースの評価コードを提供する。
実験結果
リサーチクエスチョン
- RQ1LLMsは中国語の核心的な法令条文や概念をどれだけよく記憶できるか?
- RQ2主体・事件・関係を含む複雑な法的文書を理解できるか?
- RQ3推論や数値計算を要する現実的なタスクへ法的知識を適用できるか?
- RQ4ファインチューニング戦略(SFT、RLHF)とモデルサイズが法的性能に与える影響は?
- RQ5多言語対応・中国語指向のLLMは、中国民法タスクにおいて法的特化型LLMsとどう比較されるか?
主な発見
- GPT-4は評価対象の中で法域において最も高い性能を示すモデルのままである。
- 法的特化のファインチューニングは改善をもたらすが、ゼロショット設定でトップの一般LLMとの差を縮めるには至らない。
- ファインチューニングの効果はタスクや認知レベルによって異なり、LawBenchの枠組みでは一般LLMが法的特化型を上回ることが多い。
- LawBenchは再現性とさらなる研究のために、広範なデータ・予測・評価コードを提供する。
- このベンチマークはギャップを浮き彫りにし、中国語ドメインの信頼性の高い法的LLMの今後の開発を指針する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。