[論文レビュー] Lawyer LLaMA Technical Report
Lawyer LLaMA は、法的データでの継続的事前学習、専門家主導の教師付き微調整、関連する法令記事を取得する検索モジュールを通じて、LLaMA を中国の法域向けに適応させ、幻覚を減らしドメイン推論を改善します。
Large Language Models (LLMs), like LLaMA, have exhibited remarkable performance across various tasks. Nevertheless, when deployed to specific domains such as law or medicine, the models still confront the challenge of a deficiency in domain-specific knowledge and an inadequate capability to leverage that knowledge to resolve domain-related problems. In this paper, we propose a new framework to adapt LLMs to specific domains and build Lawyer LLaMA, a legal domain LLM, based on this framework. Specifically, we inject domain knowledge during the continual training stage and teach the model to learn professional skills using properly designed supervised fine-tuning tasks. Moreover, to alleviate the hallucination problem during the model's generation, we add a retrieval module and extract relevant legal articles before the model answers any queries. When learning domain-specific skills, we find that experts' experience is much more useful than experiences distilled from ChatGPT, where hundreds of expert-written data outperform tens of thousands of ChatGPT-generated ones. We will release our model and data.
研究の動機と目的
- LLMを法分野を含む特定ドメイン知識へ適応させ、一般的な訓練の制約を克服する動機付け。
- ドメイン知識を注入し、専門家の裏付けを受けた教師付き微調整により専門的ドメインスキルを習得させ、検索モジュールを追加して回答を地に grounded にする3段階のフレームワークを提案。
- 専門家が作成したデータが、ドメイン特有のスキル学習においてチャットGPT生成データよりも優れることを示す。
- 検索ベースの grounding が法的幻覚を減らし、回答の信頼性を向上させることを示す。
提案手法
- 中国語法学コーパスと一般-domainテキストによる継続的事前学習でドメイン知識を注入し、忘却を防ぐ。
- 専門家作成の司法試験データおよび法的に基づくタスクでの教師付き微調整を通じて専門的法的スキルを学習。
- 指示に従うデータで一般的能力を向上させ、その後法的ドメインタスク(司法試験の派生、法的相談)で微調整。
- 最大3件の関連法令記事を取得する検索モジュールで応答を補強し、無関係情報をフィルタリングするようモデルを訓練。
- 訓練中に関連性の低い記事にも曝露させ、有用な入力とノイズのある入力を識別する能力を学ばせる。
- 法的ドメインタスク(Charge Prediction、JE-M)および一般ドメインベンチマーク(C3、CMNLI、SciQ、PIQA)で自動指標を用いて評価。
- 法的記事に関する幻覚のタイプを評価し、検索がその幻覚の低減に与える影響を測定。
実験結果
リサーチクエスチョン
- RQ1ドメイン特化の事前学習と専門家作成のSFTは、中国語LLMの法的タスクにおける性能を改善するか。
- RQ2検索 grounding アプローチは幻覚を減らし、法的回答の信頼性を向上させるか。
- RQ3どのタイプと規模のSFTデータ(専門家作成 vs. ChatGPT生成)が、ドメイン特有の知識と推論を最も効果的に教えるか。
- RQ4ドメイン知識の注入は法域外の一般NLPタスクに影響を及ぼすか。
主な発見
| s_i | 法的 | 一般 | CP | JE-M | C3 | CMNLI | SciQ | PIQA | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| s0 | 18.89 | 49.73 | 49.40 | 31.09 | 89.60 | 76.50 | 61.65 | - | - |
| s1 | 73.56 | 53.52 | 56.34 | 32.93 | 83.30 | 77.91 | 62.62 | - | - |
| s2 | 62.22 | 51.61 | 57.81 | 39.20 | 79.80 | 77.75 | 63.64 | - | - |
| s3 | 78.44 | 57.80 | 55.61 | 40.88 | 82.80 | 77.53 | 64.21 | - | - |
| s4 | 79.33 | 59.14 | 56.37 | 41.58 | 81.10 | 77.42 | 64.12 | - | - |
- 中国語法学コーパスでの継続的事前学習は、基準モデルと比較して法的タスク(CP・JE-Mなど)で大きな改善をもたらし、s1 が s0 に比べて最大の改善を示す。
- 専門家作成の司法試験データ(JE-Expert)は、ChatGPT生成データを上回り、ChatGPT蒸留データセットがはるかに大きい場合でも専門的な法的スキル学習に有利。
- 検索拡張入力は、非検索ベースのベースラインと比べて法的記事に関する幻覚を著しく低減するが、検索は完璧ではなくノイズを導入する可能性もある。
- 訓練中に無関係な記事を追加することで、役に立つ情報のフィルタリング能力を高め、冗長性と話題はずれの応答を減らす。
- 法的知識を注入しても一般ドメインタスクの性能を損なわず、ターゲットを絞った微調整と組み合わせるとCMNLIのような推論関連NLPタスクを改善することがある。
- ドメイン知識とSFTデータで訓練したモデルは、CP・JE-Mなどのドメイン特化タスクと複数の一般ベンチマークの両方で顕著な改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。