[논문 리뷰] DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation
DISC-MedLLM은 의료 지식 그래프, 실제 대화, 인간 선호도 재구성을 통해 고품질의 감독 학습 미세조정 데이터를 구성하여 의료 중심 LLM을 훈련시키고, 13B 파라미터의 중국 의료 LLM들 중 단일 턴 및 다중 턴 의료 상담에서 우수한 성능을 달성한다.
We propose DISC-MedLLM, a comprehensive solution that leverages Large Language Models (LLMs) to provide accurate and truthful medical response in end-to-end conversational healthcare services. To construct high-quality Supervised Fine-Tuning (SFT) datasets, we employ three strategies: utilizing medical knowledge-graphs, reconstructing real-world dialogues, and incorporating human-guided preference rephrasing. These datasets are instrumental in training DISC-MedLLM, surpassing existing medical LLMs in both single-turn and multi-turn consultation scenarios. Extensive experimental results demonstrate the effectiveness of the proposed model in bridging the gap between general language models and real-world medical consultation. Additionally, we release the constructed dataset and model weights to further contribute to research and development. Further details and resources can be found at https://github.com/FudanDISC/DISC-MedLLM
연구 동기 및 목표
- 신뢰할 수 있는 다중 턴 의료 LLM이 엔드투엔드 상담을 수행할 수 있어야 한다는 필요성의 동기 부여.
- 의료 지식 그래프, 실제 의사-환자 대화, 인간 가이드 선호를 통한 고품질 SFT 데이터 구성.
- 의료 맥락에서 정확성, 신뢰성, 다중 턴 문의 능력을 향상시키도록 13B 중국어 LLM을 훈련.
- 단일 턴 및 다중 턴 벤치마크에서 기존 의료 LLM 대비 향상을 입증.
- 추가 연구와 개발을 촉진하기 위한 데이터셋 및 모델 가중치 공개.
제안 방법
- 지식 그래프 기반 QA 쌍, 재구성된 실제 의사-환자 대화, 인간 선호도 guided 샘플의 세 가지 데이터 흐름에서 DISC-Med-SFT 구성.
- 의료 충실도 보존을 전제로 데이터를 재작성 및 확장하기 위해 LLM 루프 내 파라프레이징(ChatGPT) 사용.
- Baichuan-13B-Base(13B params)로 두 단계 감독 미세조정 적용: 1단계는 도메인 지식 및 대화 능력; 2단계는 인간 선호도 정렬.
- 기초 능력을 보존하고 과도한 특화 현상을 피하기 위해 34k+ 일반 도메인 샘플 포함.
- 단일 턴 다중선택형 QA 벤치마크 및 GPT-4를 판단자로 한 다중 턴 시뮬레이션 상담으로 평가.
실험 결과
연구 질문
- RQ1DISC-MedLLM이 단일 턴 및 다중 턴 상담 설정에서 정확하고 신뢰할 수 있는 의료 응답을 달성할 수 있는가?
- RQ2의료 지식 그래프 및 실제 대화에 기반한 grounding이 환각 현상을 줄이고 실제 임상 대화와의 정합성을 향상시키는가?
- RQ3인간 선호도에 대한 행동 정렬이 의료 대화 작업에서 성능에 어떤 영향을 미치는가?
- RQ4현재의 중국어 의료 LLM 및 범용 LLM과의 구조적 벤치마크에서 DISC-MedLLM의 상대적 강점과 약점은 무엇인가?
주요 결과
| 모델 | MLEC-QA 진료실 | MLEC-QA CWM | MLEC-QA 공중보건 | MLEC-QA 구강병학 | MLEC-QA 한의학 | NEEP 306 | 평균 |
|---|---|---|---|---|---|---|---|
| few-shot GPT-3.5 | 58.63 | 45.90 | 53.51 | 51.52 | 43.47 | 44.81 | 49.64 |
| Baichuan-13b-Chat | 31.25 | 37.69 | 28.65 | 27.27 | 29.77 | 24.81 | 29.91 |
| HuatuoGPT(13B) | 31.85 | 25.00 | 32.43 | 32.95 | 26.54 | 24.44 | 28.87 |
| DISC-MedLLM | 44.64 | 41.42 | 41.62 | 38.26 | 39.48 | 33.33 | 39.79 |
| zero-shot GPT-3.5 | 47.32 | 33.96 | 48.11 | 39.77 | 38.83 | 33.33 | 40.22 |
| Baichuan-13b-Chat | 44.05 | 43.28 | 39.92 | 31.06 | 41.42 | 32.22 | 38.66 |
| HuatuoGPT(13B) | 27.38 | 21.64 | 25.95 | 25.76 | 24.92 | 20.37 | 24.34 |
| DISC-MedLLM | 44.64 | 37.31 | 35.68 | 34.85 | 41.75 | 31.11 | 37.56 |
- DISC-MedLLM은 동일 파라미터 규모의 조건에서 HuatuoGPT(13B)보다 평균 약 10% 이상 더 우수한 의료 객관식 문제 성능을 보인다.
- 시뮬레이션 다중 턴 상담에서 DISC-MedLLM은 GPT-3.5, HuatuoGPT, BianQue에 비해 전반적 성능이 우수하며 특히 부서 및 환자 의도에서 강점이 드러난다.
- DISC-MedLLM은 다중 턴 설정에서 평가된 모델들 중 가장 높은 적극성(proactivity) 점수를 달성했다.
- 일부 벤치마크에서 GPT-3.5와의 성능이 경쟁적이며 특정 경우 GPT-4 성능에 근접, 특히 적극성 및 다중 턴 처리에서 그렇다.
- 지식-grounded 및 선호도 정렬 데이터를 활용한 2단계 SFT 방식이 지식의 신뢰성과 대화 행동 모두에서 개선을 가져왔다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.