[論文レビュー] Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model
ChatLaw は、OpenLLAMA 上に構築されたオープンソースの中国語法務 LLM で、幻覚を減らすための4つの推論モジュールと、検索用のキーワード・法LMM、エロベースの評価フレームワークを備えています。
AI legal assistants based on Large Language Models (LLMs) can provide accessible legal consulting services, but the hallucination problem poses potential legal risks. This paper presents Chatlaw, an innovative legal assistant utilizing a Mixture-of-Experts (MoE) model and a multi-agent system to enhance the reliability and accuracy of AI-driven legal services. By integrating knowledge graphs with artificial screening, we construct a high-quality legal dataset to train the MoE model. This model utilizes different experts to address various legal issues, optimizing the accuracy of legal responses. Additionally, Standardized Operating Procedures (SOP), modeled after real law firm workflows, significantly reduce errors and hallucinations in legal services. Our MoE model outperforms GPT-4 in the Lawbench and Unified Qualification Exam for Legal Professionals by 7.73% in accuracy and 11 points, respectively, and also surpasses other models in multiple dimensions during real-case consultations, demonstrating our robust capability for legal consultation.
研究の動機と目的
- 高品質なデータと最新の法的知識を備えた、中国語のオープンソース法務LLMを専用に開発する必要性を動機づける。
- 専門領域データの統合、検索強化、推論時モジュールの組み込みによって、幻覚を抑制するChatLawを開発する。
- 法的MC問評価用のデータセットを作成し、法的タスクのためのEloベースのモデルランキングを確立する。
- 異なる法的タスクに適したモデルを選択するマルチモデルコントローラを実演する。
- 法的NLPのオープン研究を促進するため、データとモデル構成要素を公開する。
提案手法
- 自己提案を追加して幻覚を減らすため、LoRAを用いてZiya-LLaMA-13Bをファインチューニングする。
- LLMを介したキーワード抽出と法令データベースからのベクトル検索を組み合わせたハイブリッド検索パイプラインを提案する。
- 937k件の判例テキストを用いて法学LLM(BERTベース)を訓練し、検索のための法令および解釈を抽出する。
- 中国語法試験データセットと、モデル性能を比較するためのEloベースの評価アリーナを構築する。
- 大規模LLMをコントローラとして用い(HuggingGPT風)、特定タスクのためにユーザー要求を専門モデルへ振り分ける。
- オープンソースのデータとコンポーネントを備えたエンドツーエンドのChatLawシステムを公開する。
実験結果
リサーチクエスチョン
- RQ1外部知識ベースを補助として活用した場合、オープンソースの中国語法務LLMは、複数の法的タスク(Q&A、キーワード抽出、試験形式の問題)で信頼性の高い性能を達成できるか?
- RQ2キーワードとベクトルベースの手法を組み合わせたハイブリッド検索アプローチは、純粋なベクトル検索より法的情報の正確度を向上させるか?
- RQ3法的推論中の幻覚を減らす自己提案機構はどれほど効果的か?
- RQ4タスク特化のファインチューニングとモデルの特化化が法域タスクの性能に与える影響は何か?
- RQ5標準化された多肢選択問題で、Eloベースのランキングフレームワークは法的LLMを意味のある形で比較できるか?
主な発見
- ChatLaw の性能は、MCQのための法的QAデータと法令データを追加することで向上する。
- タスク特化の訓練は、ターゲットタスクの性能を著しく改善する。
- パラメータ数の大きいモデルは、複雑な法的MCQにおいてより良い性能を示す傾向がある。
- コントローラーモデルは、与えられたユーザー要求に対して最も適切な専門モデルを動的に選択できる。
- LLMベースのキーワード抽出、法テキストの類似性、知識ベース検索の組み合わせは、単なるベクトルベース検索への依存を減らす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。