QUICK REVIEW

[论文解读] Lawyer LLaMA Technical Report

Quzhe Huang, Mingxu Tao|arXiv (Cornell University)|May 24, 2023

Artificial Intelligence in Law被引用 37

一句话总结

Lawyer LLaMA 通过在法律数据上进行持续预训练、专家驱动的监督微调，以及一个检索模块来获取相关法律条文，减少幻觉并提升领域推理能力。

ABSTRACT

Large Language Models (LLMs), like LLaMA, have exhibited remarkable performance across various tasks. Nevertheless, when deployed to specific domains such as law or medicine, the models still confront the challenge of a deficiency in domain-specific knowledge and an inadequate capability to leverage that knowledge to resolve domain-related problems. In this paper, we propose a new framework to adapt LLMs to specific domains and build Lawyer LLaMA, a legal domain LLM, based on this framework. Specifically, we inject domain knowledge during the continual training stage and teach the model to learn professional skills using properly designed supervised fine-tuning tasks. Moreover, to alleviate the hallucination problem during the model's generation, we add a retrieval module and extract relevant legal articles before the model answers any queries. When learning domain-specific skills, we find that experts' experience is much more useful than experiences distilled from ChatGPT, where hundreds of expert-written data outperform tens of thousands of ChatGPT-generated ones. We will release our model and data.

研究动机与目标

促使将大型语言模型适应领域特定知识，特别是法律，以克服通用训练的局限。
提出一个三阶段框架：注入领域知识，通过专家支持的监督微调学习专业领域技能，并通过检索模块来将答案与证据挂钩。
证明专家编写的数据在学习领域特定技能方面可优于由ChatGPT生成的数据。
展示基于检索的证据定位可减少法律幻觉并提升回答的可靠性。

提出的方法

通过在中文法律语料库和通用领域文本上进行持续预训练来注入领域知识，以防止遗忘。
通过对专家撰写的司法考试数据和具有法律依据的任务进行监督微调来学习专业法律技能。
使用遵循指令的数据进行训练以提升通用能力，然后在法律领域任务（司法考试变体、法律咨询）上进行微调。
为回答加入检索模块，检索最多三篇相关法律条文，并训练模型过滤无关信息。
在训练期间让模型接触无关条文，以教会其区分有用输入与嘈杂输入。
使用法律领域任务（如 Charge Prediction, JE-M）和通用领域基准（C3, CMNLI, SciQ, PIQA）的自动化指标进行评估。
评估与法律条文相关的幻觉类型，并衡量检索对减少此类幻觉的影响。

实验结果

研究问题

RQ1领域特定的预训练和专家撰写的SFT是否能提升中文大型语言模型在法律任务上的表现？
RQ2基于检索的定位是否能减少幻觉并提升法律回答的可靠性？
RQ3哪种类型和规模的SFT数据（专家撰写与ChatGPT生成）最适合教授领域特定的知识与推理？
RQ4注入领域知识是否会影响法律领域以外的一般自然语言处理任务？

主要发现

s_i	法律	通用	CP	JE-M	C3	CMNLI	SciQ	PIQA	平均
s0	18.89	49.73	49.40	31.09	89.60	76.50	61.65	-	-
s1	73.56	53.52	56.34	32.93	83.30	77.91	62.62	-	-
s2	62.22	51.61	57.81	39.20	79.80	77.75	63.64	-	-
s3	78.44	57.80	55.61	40.88	82.80	77.53	64.21	-	-
s4	79.33	59.14	56.37	41.58	81.10	77.42	64.12	-	-

在中文法律语料上的持续预训练在法律任务上取得较大提升（例如 CP 与 JE-M），相比基线提升显著，其中 s1 相比 s0 的提升最大。
专家撰写的司法考试数据（JE-Expert）在学习专业法律技能方面优于ChatGPT生成的数据，即使ChatGPT蒸馏的数据集规模更大。
带检索的输入显著减少关于法律条文的幻觉，相较无检索的基线，尽管检索并不完美，仍可能引入噪音。
在训练中添加无关条文有助于模型学习过滤不有用的检索内容，减少冗余和偏题回答。
注入法律知识不会损害通用领域任务的表现，甚至在结合针对性微调时可以提升如CMNLI这类推理相关的NLP任务。
在通过领域知识和SFT数据训练后，模型变体在领域特定（CP、JE-M）以及若干通用基准上均显示显著改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。