QUICK REVIEW

[논문 리뷰] Med42-v2: A Suite of Clinical LLMs

Christophe Clément, Praveen K Kanithi|arXiv (Cornell University)|2024. 08. 12.

Health and Medical Research Impacts인용 수 9

한 줄 요약

Med42-v2는 Llama3를 기반으로 한 임상용 대형 언어 모델(LLM) 모음을 제시하며, 의학 데이터와 다단계 정렬로 미세조정되어 기본 Llama3 및 GPT-4를 의료 벤치마크에서 능가한다.

ABSTRACT

Med42-v2 introduces a suite of clinical large language models (LLMs) designed to address the limitations of generic models in healthcare settings. These models are built on Llama3 architecture and fine-tuned using specialized clinical data. They underwent multi-stage preference alignment to effectively respond to natural prompts. While generic models are often preference-aligned to avoid answering clinical queries as a precaution, Med42-v2 is specifically trained to overcome this limitation, enabling its use in clinical settings. Med42-v2 models demonstrate superior performance compared to the original Llama3 models in both 8B and 70B parameter configurations and GPT-4 across various medical benchmarks. These LLMs are developed to understand clinical queries, perform reasoning tasks, and provide valuable assistance in clinical environments. The models are now publicly available at \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health}.

연구 동기 및 목표

의료 분야에서 일반 LLM의 한계를 해결하기 위해 임상적으로 정렬된 모델을 구축한다.
임상 활용도를 높이기 위해 Llama3/3.1를 특화된 의학 데이터로 미세조정한다.
다단계 선호 정렬을 적용하여 실제 의료 프롬프트에 대응한다.
의료 벤치마크에서 기본 모델과 GPT-4를 능가하는 성능을 입증한다.

제안 방법

2단계 학습: 임상 지시사항 미세조정 다음에 선호 정렬.
데이터: 선별된 의학 및 생의학 데이터와 일반 영역 하위집합 26.5%를 더해 언어/일반화 향상.
학습 방식: 출력 토큰에 대해서만 역전파가 있는 자가회귀 손실, 8192토큰 청크, 시스템/보조/사용자 프롬프트 형식.
선호 정렬: UltraFeedback 및 Snorkel-DPO 데이터세트를 활용한 선호 정렬, 반복 재가중 및 Direct Preference Optimization(DPO) 적용.
미세조정(8B/70B) 및 정렬 단계에 대한 하이퍼파라미터 제공; HuggingFace에서 모델 공개.
표준 의료 벤치마크에 대해 Eleuther AI 평가 해Harness를 사용한 평가.

실험 결과

연구 질문

RQ1Med42-v2 모델은 표준 의료 벤치마크에서 기본 Llama3 및 GPT-4와 비교하여 어떤 성능을 보이나?
RQ22단계 프로세스(지시사항 미세조정 + 다단계 선호 정렬)가 응답의 임상적 유용성과 안전성을 향상시키는가?
RQ38B 및 70B 매개변수 구성은 의학적 추론 및 사실 정확도에서 어떻게 비교되는가?
RQ4의료 도메인 데이터와 일반 도메인 데이터 혼합이 실제 임상 질의 처리에 어떤 영향을 미치는가?

주요 결과

모델	MMLU-Pro	MMLU	MedMCQA	MedQA	USMLE	PubmedQA	ToxiGen	평균
Mistral-7B-Instruct-v0.3	33.8	64.6	46.3	49.3	50.4	42.8	86.2	53.3
Llama3-8B-Instruct	48.2	72.9	59.7	61.6	60.4	69.8	78.5	64.4
Llama3.1-8B-Instruct	49.9	73.4	58.4	62.0	68.2	76.2	82.3	67.2
JSL-MedLlama-3-8B-v2.0	46.9	75.9	59.7	59.9	60.6	75.0	74.3	64.6
Med42-Llama3-8B	54.3	75.8	61.3	62.8	67.0	68.4	81.5	67.3
Med42-Llama3.1-8B	54.2	73.6	59.7	63.2	69.9	72.2	83.8	68.1
Gemma-2-9B	49.9	78.8	56.2	60.9	66.8	39.4	70.5	60.4
Falcon-11B	26.3	62.2	43.8	43.1	44.1	58.0	68.9	49.5
Gemma-2-27B	55.8	81.3	60.2	65.7	71.5	51.4	69.3	65.0
Mixtral-8x7B-Instruct	46.9	75.6	54.1	58.4	67.1	63.2	83.5	64.1
BiMediX (Eng)	49.7	74.9	61.1	65.1	66.4	77.8	43.2	62.6
Phi-3-Medium-128k-instruct	58.2	81.4	61.5	69.0	73.9	46.4	86.6	68.1
Mixtral-8x22B-Instruct	55.6	80.7	61.4	67.2	76.1	62.2	87.1	70.0
Llama3-70B-Instruct	64.2	86.0	72.0	78.9	83.6	71.8	87.6	77.7
Llama3.1-70B-Instruct	64.6	87.4	71.9	78.6	93.4	76.6	91.3	80.5
OpenBioLLM-70B	64.2	90.4	73.2	76.9	79.0	73.2	91.3	78.3
Med42-Llama2-70B	51.5	76.7	60.9	61.5	71.9	64.6	88.8	68.0
Med42-Llama3-70B	64.4	87.1	73.2	79.1	83.8	78.8	90.3	79.5
Med42-Llama3.1-70B	66.1	86.8	72.4	80.4	94.5	77.6	90.4	81.2
Mistral-Large-Instruct-2407	66.4	87.5	68.3	75.9	85.8	56.2	91.1	75.9
GPT-4.0	-	87.0	69.5	78.9	84.1	75.2	-	78.9
Llama3-70B-Instruct	70.2	89.3	75.8	81.9	95.5	74.6	90.7	82.6
Llama3.1-70B-Instruct	64.6	87.4	71.9	78.6	93.4	76.6	91.3	80.5

Med42-v2는 8B 및 70B에서 원래 Llama3 모델과 GPT-4를 여러 의료 벤치마크에서 능가한다.
더 큰 모델(70B)이 더 강한 성능을 보이고 제로샷 평가에서 여러 데이터셋에 대해 GPT-4를 능가할 수 있다.
임상 지시사항 및 정렬이 의료 맥락에서 이해력과 추론을 향상시키고 더 안전하고 더 유용한 임상 응답을 제공한다.
UltraFeedback 및 Snorkel-DPO를 통한 정렬은 전체 강화학습 루프 없이도 확장 가능하고 안정적인 튜닝을 가능하게 한다.
결과는 제로샷 평가에 기반하며, 실제 임상 활용성은 추가 평가가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.