Skip to main content
QUICK REVIEW

[논문 리뷰] DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation

Zhijie Bao, Wei Chen|arXiv (Cornell University)|2023. 08. 28.
Topic Modeling인용 수 21
한 줄 요약

DISC-MedLLM은 의료 지식 그래프, 실제 대화, 인간 선호도 재구성을 통해 고품질의 감독 학습 미세조정 데이터를 구성하여 의료 중심 LLM을 훈련시키고, 13B 파라미터의 중국 의료 LLM들 중 단일 턴 및 다중 턴 의료 상담에서 우수한 성능을 달성한다.

ABSTRACT

We propose DISC-MedLLM, a comprehensive solution that leverages Large Language Models (LLMs) to provide accurate and truthful medical response in end-to-end conversational healthcare services. To construct high-quality Supervised Fine-Tuning (SFT) datasets, we employ three strategies: utilizing medical knowledge-graphs, reconstructing real-world dialogues, and incorporating human-guided preference rephrasing. These datasets are instrumental in training DISC-MedLLM, surpassing existing medical LLMs in both single-turn and multi-turn consultation scenarios. Extensive experimental results demonstrate the effectiveness of the proposed model in bridging the gap between general language models and real-world medical consultation. Additionally, we release the constructed dataset and model weights to further contribute to research and development. Further details and resources can be found at https://github.com/FudanDISC/DISC-MedLLM

연구 동기 및 목표

  • 신뢰할 수 있는 다중 턴 의료 LLM이 엔드투엔드 상담을 수행할 수 있어야 한다는 필요성의 동기 부여.
  • 의료 지식 그래프, 실제 의사-환자 대화, 인간 가이드 선호를 통한 고품질 SFT 데이터 구성.
  • 의료 맥락에서 정확성, 신뢰성, 다중 턴 문의 능력을 향상시키도록 13B 중국어 LLM을 훈련.
  • 단일 턴 및 다중 턴 벤치마크에서 기존 의료 LLM 대비 향상을 입증.
  • 추가 연구와 개발을 촉진하기 위한 데이터셋 및 모델 가중치 공개.

제안 방법

  • 지식 그래프 기반 QA 쌍, 재구성된 실제 의사-환자 대화, 인간 선호도 guided 샘플의 세 가지 데이터 흐름에서 DISC-Med-SFT 구성.
  • 의료 충실도 보존을 전제로 데이터를 재작성 및 확장하기 위해 LLM 루프 내 파라프레이징(ChatGPT) 사용.
  • Baichuan-13B-Base(13B params)로 두 단계 감독 미세조정 적용: 1단계는 도메인 지식 및 대화 능력; 2단계는 인간 선호도 정렬.
  • 기초 능력을 보존하고 과도한 특화 현상을 피하기 위해 34k+ 일반 도메인 샘플 포함.
  • 단일 턴 다중선택형 QA 벤치마크 및 GPT-4를 판단자로 한 다중 턴 시뮬레이션 상담으로 평가.

실험 결과

연구 질문

  • RQ1DISC-MedLLM이 단일 턴 및 다중 턴 상담 설정에서 정확하고 신뢰할 수 있는 의료 응답을 달성할 수 있는가?
  • RQ2의료 지식 그래프 및 실제 대화에 기반한 grounding이 환각 현상을 줄이고 실제 임상 대화와의 정합성을 향상시키는가?
  • RQ3인간 선호도에 대한 행동 정렬이 의료 대화 작업에서 성능에 어떤 영향을 미치는가?
  • RQ4현재의 중국어 의료 LLM 및 범용 LLM과의 구조적 벤치마크에서 DISC-MedLLM의 상대적 강점과 약점은 무엇인가?

주요 결과

모델MLEC-QA 진료실MLEC-QA CWMMLEC-QA 공중보건MLEC-QA 구강병학MLEC-QA 한의학NEEP 306평균
few-shot GPT-3.558.6345.9053.5151.5243.4744.8149.64
Baichuan-13b-Chat31.2537.6928.6527.2729.7724.8129.91
HuatuoGPT(13B)31.8525.0032.4332.9526.5424.4428.87
DISC-MedLLM44.6441.4241.6238.2639.4833.3339.79
zero-shot GPT-3.547.3233.9648.1139.7738.8333.3340.22
Baichuan-13b-Chat44.0543.2839.9231.0641.4232.2238.66
HuatuoGPT(13B)27.3821.6425.9525.7624.9220.3724.34
DISC-MedLLM44.6437.3135.6834.8541.7531.1137.56
  • DISC-MedLLM은 동일 파라미터 규모의 조건에서 HuatuoGPT(13B)보다 평균 약 10% 이상 더 우수한 의료 객관식 문제 성능을 보인다.
  • 시뮬레이션 다중 턴 상담에서 DISC-MedLLM은 GPT-3.5, HuatuoGPT, BianQue에 비해 전반적 성능이 우수하며 특히 부서 및 환자 의도에서 강점이 드러난다.
  • DISC-MedLLM은 다중 턴 설정에서 평가된 모델들 중 가장 높은 적극성(proactivity) 점수를 달성했다.
  • 일부 벤치마크에서 GPT-3.5와의 성능이 경쟁적이며 특정 경우 GPT-4 성능에 근접, 특히 적극성 및 다중 턴 처리에서 그렇다.
  • 지식-grounded 및 선호도 정렬 데이터를 활용한 2단계 SFT 방식이 지식의 신뢰성과 대화 행동 모두에서 개선을 가져왔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.