[論文レビュー] DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation
DISC-MedLLMは、医療知識グラフ、実世界の対話、および人間の嗜好に基づく再表現から高品質な教師付き微調整データを構成して医療に特化したLLMを訓練し、13Bパラメータの中国語医療LLMの中で、単回対話および多回対話の医療相談で優れた性能を達成する。
We propose DISC-MedLLM, a comprehensive solution that leverages Large Language Models (LLMs) to provide accurate and truthful medical response in end-to-end conversational healthcare services. To construct high-quality Supervised Fine-Tuning (SFT) datasets, we employ three strategies: utilizing medical knowledge-graphs, reconstructing real-world dialogues, and incorporating human-guided preference rephrasing. These datasets are instrumental in training DISC-MedLLM, surpassing existing medical LLMs in both single-turn and multi-turn consultation scenarios. Extensive experimental results demonstrate the effectiveness of the proposed model in bridging the gap between general language models and real-world medical consultation. Additionally, we release the constructed dataset and model weights to further contribute to research and development. Further details and resources can be found at https://github.com/FudanDISC/DISC-MedLLM
研究の動機と目的
- エンドツーエンドの医療相談を実行できる信頼性の高い多回対話型LLMの必要性を喚起する。
- 医療知識グラフ、実世界の医師-患者対話、そして人間の指導に基づく嗜好から高品質なSFTデータを構築する。
- 医療文脈での正確性・信頼性・多回問合せ能力を向上させるため、13Bの中国語LLMを訓練する。
- 既存の医療LLMに対する改善を示すため、単回対話および多回対話のベンチマークで評価する。
- さらなる研究開発を促進するため、データセットとモデル重みを公開する。
提案手法
- 知識グラフ主導のQAペア、再構成された実世界の医師-患者対話、そして人間の嗜好に導かれたサンプルの3つのデータストリームからDISC-Med-SFTを構築する。
- 医療的忠実性を保持したままデータを再記述・拡張するために、LLMをループに組み込んだ言い換え(ChatGPT)を使用する。
- Baichuan-13B-Base(13Bパラメータ)で二段階の教師付き微調整を採用する:第1段は領域知識と対話能力、第2段は人間の嗜好合わせ。
- 基盤能力を保持し過度な専門化を避けるために3.4万件超の一般ドメインサンプルを取り入れる。
- GPT-4を審査員として用いた単回多肢選択QAベンチマークと多回対話模擬相談で評価する。
実験結果
リサーチクエスチョン
- RQ1DISC-MedLLMは単回対話と多回対話の設定の双方で、正確で信頼できる医療応答を実現できるか。
- RQ2医療知識グラフと実世界の対話への基づきが、幻覚を減らし現実の臨床的語彙と整合性を高めるか。
- RQ3人間の嗜好への行動的整合性が医療対話タスクの性能にどう影響するか。
- RQ4構造化ベンチマークにおける、既存の中国語医療LLMおよび汎用LLMに対するDISC-MedLLMの比較的長所と短所は何か。
主な発見
| モデル | MLEC-QA クリニック | MLEC-QA CWM | MLEC-QA 公衆衛生 | MLEC-QA 歯科口腔科 | MLEC-QA 中医学 | NEEP 306 | 平均 |
|---|---|---|---|---|---|---|---|
| few-shot GPT-3.5 | 58.63 | 45.90 | 53.51 | 51.52 | 43.47 | 44.81 | 49.64 |
| Baichuan-13b-Chat | 31.25 | 37.69 | 28.65 | 27.27 | 29.77 | 24.81 | 29.91 |
| HuatuoGPT(13B) | 31.85 | 25.00 | 32.43 | 32.95 | 26.54 | 24.44 | 28.87 |
| DISC-MedLLM | 44.64 | 41.42 | 41.62 | 38.26 | 39.48 | 33.33 | 39.79 |
| zero-shot GPT-3.5 | 47.32 | 33.96 | 48.11 | 39.77 | 38.83 | 33.33 | 40.22 |
| Baichuan-13b-Chat | 44.05 | 43.28 | 39.92 | 31.06 | 41.42 | 32.22 | 38.66 |
| HuatuoGPT(13B) | 27.38 | 21.64 | 25.95 | 25.76 | 24.92 | 20.37 | 24.34 |
| DISC-MedLLM | 44.64 | 37.31 | 35.68 | 34.85 | 41.75 | 31.11 | 37.56 |
- DISC-MedLLMは、同じパラメータ規模でHuatuoGPT(13B)を医療の多肢選択問題で平均して10%以上上回る。
- 模擬多回対話では、GPT-3.5、HuatuoGPT、BianQueと比較して総合性能が優れており、特に部門と患者意図で優位。
- DISC-MedLLMは多回設定で評価対象モデルの中で最も高いプロアクティビティスコアを達成。
- モデルの結果はGPT-3.5と競合し、特定のベンチマークではGPT-4の性能に近づく、特にプロアクティブ性と多回処理を考慮した場合。
- 知識 grounded and preference-aligned dataを用いた二段階SFTアプローチは、知識の信頼性と対話挙動の双方の改善をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。