[논문 리뷰] Med42-v2: A Suite of Clinical LLMs
Med42-v2는 Llama3를 기반으로 한 임상용 대형 언어 모델(LLM) 모음을 제시하며, 의학 데이터와 다단계 정렬로 미세조정되어 기본 Llama3 및 GPT-4를 의료 벤치마크에서 능가한다.
Med42-v2 introduces a suite of clinical large language models (LLMs) designed to address the limitations of generic models in healthcare settings. These models are built on Llama3 architecture and fine-tuned using specialized clinical data. They underwent multi-stage preference alignment to effectively respond to natural prompts. While generic models are often preference-aligned to avoid answering clinical queries as a precaution, Med42-v2 is specifically trained to overcome this limitation, enabling its use in clinical settings. Med42-v2 models demonstrate superior performance compared to the original Llama3 models in both 8B and 70B parameter configurations and GPT-4 across various medical benchmarks. These LLMs are developed to understand clinical queries, perform reasoning tasks, and provide valuable assistance in clinical environments. The models are now publicly available at \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health}.
연구 동기 및 목표
- 의료 분야에서 일반 LLM의 한계를 해결하기 위해 임상적으로 정렬된 모델을 구축한다.
- 임상 활용도를 높이기 위해 Llama3/3.1를 특화된 의학 데이터로 미세조정한다.
- 다단계 선호 정렬을 적용하여 실제 의료 프롬프트에 대응한다.
- 의료 벤치마크에서 기본 모델과 GPT-4를 능가하는 성능을 입증한다.
제안 방법
- 2단계 학습: 임상 지시사항 미세조정 다음에 선호 정렬.
- 데이터: 선별된 의학 및 생의학 데이터와 일반 영역 하위집합 26.5%를 더해 언어/일반화 향상.
- 학습 방식: 출력 토큰에 대해서만 역전파가 있는 자가회귀 손실, 8192토큰 청크, 시스템/보조/사용자 프롬프트 형식.
- 선호 정렬: UltraFeedback 및 Snorkel-DPO 데이터세트를 활용한 선호 정렬, 반복 재가중 및 Direct Preference Optimization(DPO) 적용.
- 미세조정(8B/70B) 및 정렬 단계에 대한 하이퍼파라미터 제공; HuggingFace에서 모델 공개.
- 표준 의료 벤치마크에 대해 Eleuther AI 평가 해Harness를 사용한 평가.
실험 결과
연구 질문
- RQ1Med42-v2 모델은 표준 의료 벤치마크에서 기본 Llama3 및 GPT-4와 비교하여 어떤 성능을 보이나?
- RQ22단계 프로세스(지시사항 미세조정 + 다단계 선호 정렬)가 응답의 임상적 유용성과 안전성을 향상시키는가?
- RQ38B 및 70B 매개변수 구성은 의학적 추론 및 사실 정확도에서 어떻게 비교되는가?
- RQ4의료 도메인 데이터와 일반 도메인 데이터 혼합이 실제 임상 질의 처리에 어떤 영향을 미치는가?
주요 결과
| 모델 | MMLU-Pro | MMLU | MedMCQA | MedQA | USMLE | PubmedQA | ToxiGen | 평균 |
|---|---|---|---|---|---|---|---|---|
| Mistral-7B-Instruct-v0.3 | 33.8 | 64.6 | 46.3 | 49.3 | 50.4 | 42.8 | 86.2 | 53.3 |
| Llama3-8B-Instruct | 48.2 | 72.9 | 59.7 | 61.6 | 60.4 | 69.8 | 78.5 | 64.4 |
| Llama3.1-8B-Instruct | 49.9 | 73.4 | 58.4 | 62.0 | 68.2 | 76.2 | 82.3 | 67.2 |
| JSL-MedLlama-3-8B-v2.0 | 46.9 | 75.9 | 59.7 | 59.9 | 60.6 | 75.0 | 74.3 | 64.6 |
| Med42-Llama3-8B | 54.3 | 75.8 | 61.3 | 62.8 | 67.0 | 68.4 | 81.5 | 67.3 |
| Med42-Llama3.1-8B | 54.2 | 73.6 | 59.7 | 63.2 | 69.9 | 72.2 | 83.8 | 68.1 |
| Gemma-2-9B | 49.9 | 78.8 | 56.2 | 60.9 | 66.8 | 39.4 | 70.5 | 60.4 |
| Falcon-11B | 26.3 | 62.2 | 43.8 | 43.1 | 44.1 | 58.0 | 68.9 | 49.5 |
| Gemma-2-27B | 55.8 | 81.3 | 60.2 | 65.7 | 71.5 | 51.4 | 69.3 | 65.0 |
| Mixtral-8x7B-Instruct | 46.9 | 75.6 | 54.1 | 58.4 | 67.1 | 63.2 | 83.5 | 64.1 |
| BiMediX (Eng) | 49.7 | 74.9 | 61.1 | 65.1 | 66.4 | 77.8 | 43.2 | 62.6 |
| Phi-3-Medium-128k-instruct | 58.2 | 81.4 | 61.5 | 69.0 | 73.9 | 46.4 | 86.6 | 68.1 |
| Mixtral-8x22B-Instruct | 55.6 | 80.7 | 61.4 | 67.2 | 76.1 | 62.2 | 87.1 | 70.0 |
| Llama3-70B-Instruct | 64.2 | 86.0 | 72.0 | 78.9 | 83.6 | 71.8 | 87.6 | 77.7 |
| Llama3.1-70B-Instruct | 64.6 | 87.4 | 71.9 | 78.6 | 93.4 | 76.6 | 91.3 | 80.5 |
| OpenBioLLM-70B | 64.2 | 90.4 | 73.2 | 76.9 | 79.0 | 73.2 | 91.3 | 78.3 |
| Med42-Llama2-70B | 51.5 | 76.7 | 60.9 | 61.5 | 71.9 | 64.6 | 88.8 | 68.0 |
| Med42-Llama3-70B | 64.4 | 87.1 | 73.2 | 79.1 | 83.8 | 78.8 | 90.3 | 79.5 |
| Med42-Llama3.1-70B | 66.1 | 86.8 | 72.4 | 80.4 | 94.5 | 77.6 | 90.4 | 81.2 |
| Mistral-Large-Instruct-2407 | 66.4 | 87.5 | 68.3 | 75.9 | 85.8 | 56.2 | 91.1 | 75.9 |
| GPT-4.0 | - | 87.0 | 69.5 | 78.9 | 84.1 | 75.2 | - | 78.9 |
| Llama3-70B-Instruct | 70.2 | 89.3 | 75.8 | 81.9 | 95.5 | 74.6 | 90.7 | 82.6 |
| Llama3.1-70B-Instruct | 64.6 | 87.4 | 71.9 | 78.6 | 93.4 | 76.6 | 91.3 | 80.5 |
- Med42-v2는 8B 및 70B에서 원래 Llama3 모델과 GPT-4를 여러 의료 벤치마크에서 능가한다.
- 더 큰 모델(70B)이 더 강한 성능을 보이고 제로샷 평가에서 여러 데이터셋에 대해 GPT-4를 능가할 수 있다.
- 임상 지시사항 및 정렬이 의료 맥락에서 이해력과 추론을 향상시키고 더 안전하고 더 유용한 임상 응답을 제공한다.
- UltraFeedback 및 Snorkel-DPO를 통한 정렬은 전체 강화학습 루프 없이도 확장 가능하고 안정적인 튜닝을 가능하게 한다.
- 결과는 제로샷 평가에 기반하며, 실제 임상 활용성은 추가 평가가 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.