QUICK REVIEW

[논문 리뷰] DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation

Zhijie Bao, Wei Chen|arXiv (Cornell University)|2023. 08. 28.

Topic Modeling인용 수 21

한 줄 요약

DISC-MedLLM은 의료 지식 그래프, 실제 대화, 인간 선호도 재구성을 통해 고품질의 감독 학습 미세조정 데이터를 구성하여 의료 중심 LLM을 훈련시키고, 13B 파라미터의 중국 의료 LLM들 중 단일 턴 및 다중 턴 의료 상담에서 우수한 성능을 달성한다.

ABSTRACT

We propose DISC-MedLLM, a comprehensive solution that leverages Large Language Models (LLMs) to provide accurate and truthful medical response in end-to-end conversational healthcare services. To construct high-quality Supervised Fine-Tuning (SFT) datasets, we employ three strategies: utilizing medical knowledge-graphs, reconstructing real-world dialogues, and incorporating human-guided preference rephrasing. These datasets are instrumental in training DISC-MedLLM, surpassing existing medical LLMs in both single-turn and multi-turn consultation scenarios. Extensive experimental results demonstrate the effectiveness of the proposed model in bridging the gap between general language models and real-world medical consultation. Additionally, we release the constructed dataset and model weights to further contribute to research and development. Further details and resources can be found at https://github.com/FudanDISC/DISC-MedLLM

연구 동기 및 목표

신뢰할 수 있는 다중 턴 의료 LLM이 엔드투엔드 상담을 수행할 수 있어야 한다는 필요성의 동기 부여.
의료 지식 그래프, 실제 의사-환자 대화, 인간 가이드 선호를 통한 고품질 SFT 데이터 구성.
의료 맥락에서 정확성, 신뢰성, 다중 턴 문의 능력을 향상시키도록 13B 중국어 LLM을 훈련.
단일 턴 및 다중 턴 벤치마크에서 기존 의료 LLM 대비 향상을 입증.
추가 연구와 개발을 촉진하기 위한 데이터셋 및 모델 가중치 공개.

제안 방법

지식 그래프 기반 QA 쌍, 재구성된 실제 의사-환자 대화, 인간 선호도 guided 샘플의 세 가지 데이터 흐름에서 DISC-Med-SFT 구성.
의료 충실도 보존을 전제로 데이터를 재작성 및 확장하기 위해 LLM 루프 내 파라프레이징(ChatGPT) 사용.
Baichuan-13B-Base(13B params)로 두 단계 감독 미세조정 적용: 1단계는 도메인 지식 및 대화 능력; 2단계는 인간 선호도 정렬.
기초 능력을 보존하고 과도한 특화 현상을 피하기 위해 34k+ 일반 도메인 샘플 포함.
단일 턴 다중선택형 QA 벤치마크 및 GPT-4를 판단자로 한 다중 턴 시뮬레이션 상담으로 평가.

실험 결과

연구 질문

RQ1DISC-MedLLM이 단일 턴 및 다중 턴 상담 설정에서 정확하고 신뢰할 수 있는 의료 응답을 달성할 수 있는가?
RQ2의료 지식 그래프 및 실제 대화에 기반한 grounding이 환각 현상을 줄이고 실제 임상 대화와의 정합성을 향상시키는가?
RQ3인간 선호도에 대한 행동 정렬이 의료 대화 작업에서 성능에 어떤 영향을 미치는가?
RQ4현재의 중국어 의료 LLM 및 범용 LLM과의 구조적 벤치마크에서 DISC-MedLLM의 상대적 강점과 약점은 무엇인가?

주요 결과

모델	MLEC-QA 진료실	MLEC-QA CWM	MLEC-QA 공중보건	MLEC-QA 구강병학	MLEC-QA 한의학	NEEP 306	평균
few-shot GPT-3.5	58.63	45.90	53.51	51.52	43.47	44.81	49.64
Baichuan-13b-Chat	31.25	37.69	28.65	27.27	29.77	24.81	29.91
HuatuoGPT(13B)	31.85	25.00	32.43	32.95	26.54	24.44	28.87
DISC-MedLLM	44.64	41.42	41.62	38.26	39.48	33.33	39.79
zero-shot GPT-3.5	47.32	33.96	48.11	39.77	38.83	33.33	40.22
Baichuan-13b-Chat	44.05	43.28	39.92	31.06	41.42	32.22	38.66
HuatuoGPT(13B)	27.38	21.64	25.95	25.76	24.92	20.37	24.34
DISC-MedLLM	44.64	37.31	35.68	34.85	41.75	31.11	37.56

DISC-MedLLM은 동일 파라미터 규모의 조건에서 HuatuoGPT(13B)보다 평균 약 10% 이상 더 우수한 의료 객관식 문제 성능을 보인다.
시뮬레이션 다중 턴 상담에서 DISC-MedLLM은 GPT-3.5, HuatuoGPT, BianQue에 비해 전반적 성능이 우수하며 특히 부서 및 환자 의도에서 강점이 드러난다.
DISC-MedLLM은 다중 턴 설정에서 평가된 모델들 중 가장 높은 적극성(proactivity) 점수를 달성했다.
일부 벤치마크에서 GPT-3.5와의 성능이 경쟁적이며 특정 경우 GPT-4 성능에 근접, 특히 적극성 및 다중 턴 처리에서 그렇다.
지식-grounded 및 선호도 정렬 데이터를 활용한 2단계 SFT 방식이 지식의 신뢰성과 대화 행동 모두에서 개선을 가져왔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.