Skip to main content
QUICK REVIEW

[논문 리뷰] Med42-v2: A Suite of Clinical LLMs

Christophe Clément, Praveen K Kanithi|arXiv (Cornell University)|2024. 08. 12.
Health and Medical Research Impacts인용 수 9
한 줄 요약

Med42-v2는 Llama3를 기반으로 한 임상용 대형 언어 모델(LLM) 모음을 제시하며, 의학 데이터와 다단계 정렬로 미세조정되어 기본 Llama3 및 GPT-4를 의료 벤치마크에서 능가한다.

ABSTRACT

Med42-v2 introduces a suite of clinical large language models (LLMs) designed to address the limitations of generic models in healthcare settings. These models are built on Llama3 architecture and fine-tuned using specialized clinical data. They underwent multi-stage preference alignment to effectively respond to natural prompts. While generic models are often preference-aligned to avoid answering clinical queries as a precaution, Med42-v2 is specifically trained to overcome this limitation, enabling its use in clinical settings. Med42-v2 models demonstrate superior performance compared to the original Llama3 models in both 8B and 70B parameter configurations and GPT-4 across various medical benchmarks. These LLMs are developed to understand clinical queries, perform reasoning tasks, and provide valuable assistance in clinical environments. The models are now publicly available at \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health}.

연구 동기 및 목표

  • 의료 분야에서 일반 LLM의 한계를 해결하기 위해 임상적으로 정렬된 모델을 구축한다.
  • 임상 활용도를 높이기 위해 Llama3/3.1를 특화된 의학 데이터로 미세조정한다.
  • 다단계 선호 정렬을 적용하여 실제 의료 프롬프트에 대응한다.
  • 의료 벤치마크에서 기본 모델과 GPT-4를 능가하는 성능을 입증한다.

제안 방법

  • 2단계 학습: 임상 지시사항 미세조정 다음에 선호 정렬.
  • 데이터: 선별된 의학 및 생의학 데이터와 일반 영역 하위집합 26.5%를 더해 언어/일반화 향상.
  • 학습 방식: 출력 토큰에 대해서만 역전파가 있는 자가회귀 손실, 8192토큰 청크, 시스템/보조/사용자 프롬프트 형식.
  • 선호 정렬: UltraFeedback 및 Snorkel-DPO 데이터세트를 활용한 선호 정렬, 반복 재가중 및 Direct Preference Optimization(DPO) 적용.
  • 미세조정(8B/70B) 및 정렬 단계에 대한 하이퍼파라미터 제공; HuggingFace에서 모델 공개.
  • 표준 의료 벤치마크에 대해 Eleuther AI 평가 해Harness를 사용한 평가.

실험 결과

연구 질문

  • RQ1Med42-v2 모델은 표준 의료 벤치마크에서 기본 Llama3 및 GPT-4와 비교하여 어떤 성능을 보이나?
  • RQ22단계 프로세스(지시사항 미세조정 + 다단계 선호 정렬)가 응답의 임상적 유용성과 안전성을 향상시키는가?
  • RQ38B 및 70B 매개변수 구성은 의학적 추론 및 사실 정확도에서 어떻게 비교되는가?
  • RQ4의료 도메인 데이터와 일반 도메인 데이터 혼합이 실제 임상 질의 처리에 어떤 영향을 미치는가?

주요 결과

모델MMLU-ProMMLUMedMCQAMedQAUSMLEPubmedQAToxiGen평균
Mistral-7B-Instruct-v0.333.864.646.349.350.442.886.253.3
Llama3-8B-Instruct48.272.959.761.660.469.878.564.4
Llama3.1-8B-Instruct49.973.458.462.068.276.282.367.2
JSL-MedLlama-3-8B-v2.046.975.959.759.960.675.074.364.6
Med42-Llama3-8B54.375.861.362.867.068.481.567.3
Med42-Llama3.1-8B54.273.659.763.269.972.283.868.1
Gemma-2-9B49.978.856.260.966.839.470.560.4
Falcon-11B26.362.243.843.144.158.068.949.5
Gemma-2-27B55.881.360.265.771.551.469.365.0
Mixtral-8x7B-Instruct46.975.654.158.467.163.283.564.1
BiMediX (Eng)49.774.961.165.166.477.843.262.6
Phi-3-Medium-128k-instruct58.281.461.569.073.946.486.668.1
Mixtral-8x22B-Instruct55.680.761.467.276.162.287.170.0
Llama3-70B-Instruct64.286.072.078.983.671.887.677.7
Llama3.1-70B-Instruct64.687.471.978.693.476.691.380.5
OpenBioLLM-70B64.290.473.276.979.073.291.378.3
Med42-Llama2-70B51.576.760.961.571.964.688.868.0
Med42-Llama3-70B64.487.173.279.183.878.890.379.5
Med42-Llama3.1-70B66.186.872.480.494.577.690.481.2
Mistral-Large-Instruct-240766.487.568.375.985.856.291.175.9
GPT-4.0-87.069.578.984.175.2-78.9
Llama3-70B-Instruct70.289.375.881.995.574.690.782.6
Llama3.1-70B-Instruct64.687.471.978.693.476.691.380.5
  • Med42-v2는 8B 및 70B에서 원래 Llama3 모델과 GPT-4를 여러 의료 벤치마크에서 능가한다.
  • 더 큰 모델(70B)이 더 강한 성능을 보이고 제로샷 평가에서 여러 데이터셋에 대해 GPT-4를 능가할 수 있다.
  • 임상 지시사항 및 정렬이 의료 맥락에서 이해력과 추론을 향상시키고 더 안전하고 더 유용한 임상 응답을 제공한다.
  • UltraFeedback 및 Snorkel-DPO를 통한 정렬은 전체 강화학습 루프 없이도 확장 가능하고 안정적인 튜닝을 가능하게 한다.
  • 결과는 제로샷 평가에 기반하며, 실제 임상 활용성은 추가 평가가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.