[논문 리뷰] Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue
Zhongjing은 LLaMA를 기반으로 한 최초의 중국어 의료 LLM으로, 전체 학습 파이프라인(사전 학습, SFT, RLHF)과 대규모 다회문 의사-환자 데이터셋(CMtMedQA)을 사용합니다; 파라미터 수가 훨씬 적은 상태에서 오픈 소스 중국어 의료 LLM을 능가하고 일부 영역에서 ChatGPT와 경쟁합니다.
Recent advances in Large Language Models (LLMs) have achieved remarkable breakthroughs in understanding and responding to user intents. However, their performance lag behind general use cases in some expertise domains, such as Chinese medicine. Existing efforts to incorporate Chinese medicine into LLMs rely on Supervised Fine-Tuning (SFT) with single-turn and distilled dialogue data. These models lack the ability for doctor-like proactive inquiry and multi-turn comprehension and cannot align responses with experts' intentions. In this work, we introduce Zhongjing, the first Chinese medical LLaMA-based LLM that implements an entire training pipeline from continuous pre-training, SFT, to Reinforcement Learning from Human Feedback (RLHF). Additionally, we construct a Chinese multi-turn medical dialogue dataset of 70,000 authentic doctor-patient dialogues, CMtMedQA, which significantly enhances the model's capability for complex dialogue and proactive inquiry initiation. We also define a refined annotation rule and evaluation criteria given the unique characteristics of the biomedical domain. Extensive experimental results show that Zhongjing outperforms baselines in various capacities and matches the performance of ChatGPT in some abilities, despite the 100x parameters. Ablation studies also demonstrate the contributions of each component: pre-training enhances medical knowledge, and RLHF further improves instruction-following ability and safety. Our code, datasets, and models are available at https://github.com/SupritYoung/Zhongjing.
연구 동기 및 목표
- 연속 사전 학습, 감독 미세 조정, 인간 피드백으로부터의 강화 학습을 통합하여 중국어 의료 LLM의 격차를 해소한다.
- 적극적 질문과 복합 상담을 가능하게 하는 대규모 다회문 중국어 의료 대화 데이터셋을 만든다.
- 의료 대화 능력, 안전성 및 전문성을 더 잘 평가하기 위한 도메인 특화 주석 및 평가 기준을 정의한다.
- 사전 학습과 RLHF가 의료 지식, 지시 준수, 안전성에 미치는 영향을 입증한다.
제안 방법
- 의료 지식을 주입하기 위해 Ziya-LLaMA를 기본으로 다양한 실제 의료 코퍼스에서의 지속적 사전 학습을 수행하여 의료 지식을 강화한다.
- 실제 의사-환자 상호작용에서 파생되고 CMeKG와 대조된 적극적 질문을 포함한 70,000턴의 중국어 다회문 의료 대화 데이터셋인 CMtMedQA를 구축한다.
- 네 가지 SFT 데이터 유형: 단일 턴 의료 대화, CMtMedQA 다회문 대화, 의료 NLP 태스크 지시, 일반 의료 관련 대화를 포함하여 재앙적 망각을 완화한다.
- RLHF: 여섯 명의 의료 전문가가 20,000개의 모델 출력을 평가하는 정교한 의료 주석 규칙을 사용하여 보상 모델을 학습하고, 이후 PPO를 적용해 전문가 의도와 일치시킨다.
- 평가에는 3차원 9능력 프레임워크를 사용하고 안전성, 전문성, 유창성 점수를 매기기 위해 GPT-4/인간 전문가를 활용한다.
실험 결과
연구 질문
- RQ1엔드투엔드 학습(사전 학습 + SFT + RLHF)이 오픈 소스 LLM의 중국어 의료 역량에 어떤 영향을 미치는가?
- RQ2대규모의 실제 세계 다회문 의료 대화 데이터셋이 중국어 의료 LLM의 적극적 질문 및 진단 추론을 개선할 수 있는가?
- RQ3지속적 사전 학습과 RLHF가 의료 대화의 안전성, 전문성, 유창성에 기여하는 바는 무엇인가?
- RQ4Zhongjing은 여러 능력에서 기존의 오픈 소스 중국어 의료 LLM 및 ChatGPT와 어떻게 비교되는가?
- RQ5LLM의 의료 대화에서 고유한 요구를 가장 잘 포착하는 평가 기준은 무엇인가?
주요 결과
- Zhongjing은 여러 능력 차원에서 오픈소스 중국어 의료 LLM 기준선을 능가한다.
- 모델은 ChatGPT의 매개변수의 1%에 불과함에도 일부 능력에서 ChatGPT와 대등하다.
- CMtMedQA는 모델의 다회문 대화 및 적극적 질문 능력을 크게 향상시킨다.
- 사전 학습은 의료 지식을 향상시키고, RLHF는 지시 준수 및 안전성을 향상시키며, 제거 실험은 둘 다 중요함을 보여준다.
- 지시의 규모화와 도메인 특화 데이터가 성능을 좌우하며, 과도한 증류 데이터는 실제 의료 정확도를 해칠 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.