Skip to main content
QUICK REVIEW

[论文解读] Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model

Jiaxi Cui, Ning, Munan|arXiv (Cornell University)|Jun 28, 2023
Topic Modeling被引用 90
一句话总结

ChatLaw 提供一个基于 OpenLLAMA 的开源中文法律大模型,具备四个推理模块以降低幻觉,还包含用于检索的关键字与法律大模型,以及基于 Elo 的评估框架。

ABSTRACT

AI legal assistants based on Large Language Models (LLMs) can provide accessible legal consulting services, but the hallucination problem poses potential legal risks. This paper presents Chatlaw, an innovative legal assistant utilizing a Mixture-of-Experts (MoE) model and a multi-agent system to enhance the reliability and accuracy of AI-driven legal services. By integrating knowledge graphs with artificial screening, we construct a high-quality legal dataset to train the MoE model. This model utilizes different experts to address various legal issues, optimizing the accuracy of legal responses. Additionally, Standardized Operating Procedures (SOP), modeled after real law firm workflows, significantly reduce errors and hallucinations in legal services. Our MoE model outperforms GPT-4 in the Lawbench and Unified Qualification Exam for Legal Professionals by 7.73% in accuracy and 11 points, respectively, and also surpasses other models in multiple dimensions during real-case consultations, demonstrating our robust capability for legal consultation.

研究动机与目标

  • 促使需要一个具有高数据质量和最新法律知识的专用开源中文法律大模型。
  • 通过整合领域特定数据、检索强化和推理时模块来开发 ChatLaw,以减轻幻觉。
  • 创建用于法律多选题评估的数据集,并为法律任务建立基于 Elo 的模型排名。
  • 演示一个多模型控制器,为不同法律任务选择合适的模型。
  • 发布数据与模型组件,促进法律 NLP 的开放研究。

提出的方法

  • 使用 LoRA 对 Ziya-LLaMA-13B 进行微调,并加入自我建议以减少幻觉。
  • 提出一个混合检索流水线,结合通过 LLM 的关键字提取和来自法律数据库的向量检索。
  • 在 937k 份案例文本上训练一个 Law LLM(基于 BERT),以提取用于检索的法律条文和释义。
  • 构建一个中文法考数据集和一个 Elo 基准评测环境,以比较模型性能。
  • 使用一个大规模 LLM 作为控制器(HuggingGPT 风格),将用户请求路由到专门的模型以完成特定任务。
  • 发布一个端到端的 ChatLaw 系统,包含开源数据和组件。

实验结果

研究问题

  • RQ1在结合外部知识库时,开源中文法律大模型是否能够在多项法律任务(问答、关键词提取和考试式题目)上实现可靠表现?
  • RQ2结合关键词提取和向量检索的混合检索方法是否比纯向量检索能提高法律信息的准确性?
  • RQ3在法律推理中,自我建议机制在减少幻觉方面有多有效?
  • RQ4针对任务的微调和模型专业化对法律领域任务表现有何影响?
  • RQ5基于 Elo 的排名框架是否能够在标准化多选题上有意义地比较法律 LLM?

主要发现

  • ChatLaw 的性能受益于添加法律问答数据和用于 MCQs 的法条数据。
  • 针对特定任务的训练显著提升了目标任务的表现。
  • 较大参数的模型在复杂的法律多选题上往往表现更好。
  • 控制器模型可以动态为给定的用户请求选择最合适的专门化模型。
  • 基于 LLM 的关键词提取、法律文本相似性和知识库检索的结合,减少了仅依赖向量检索的情况。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。