QUICK REVIEW

[논문 리뷰] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

Zeming Chen, A. Cano|arXiv (Cornell University)|2023. 11. 27.

Artificial Intelligence in Healthcare and Education인용 수 117

한 줄 요약

MEDITRON-7B 및 MEDITRON-70B는 선별된 의학 데이터를 사용한 지속적 사전학습으로 구축된 오픈 소스 의학 LLM이며, 오픈 모델 중에서 최첨단 성능을 달성하고 일부 비공개 모델과의 다수의 의학 벤치마크에서 경쟁력 있는 성능을 보입니다.

ABSTRACT

Large language models (LLMs) can potentially democratize access to medical knowledge. While many efforts have been made to harness and improve LLMs' medical knowledge and reasoning capacities, the resulting models are either closed-source (e.g., PaLM, GPT-4) or limited in scale (<= 13B parameters), which restricts their abilities. In this work, we improve access to large-scale medical LLMs by releasing MEDITRON: a suite of open-source LLMs with 7B and 70B parameters adapted to the medical domain. MEDITRON builds on Llama-2 (through our adaptation of Nvidia's Megatron-LM distributed trainer), and extends pretraining on a comprehensively curated medical corpus, including selected PubMed articles, abstracts, and internationally-recognized medical guidelines. Evaluations using four major medical benchmarks show significant performance gains over several state-of-the-art baselines before and after task-specific finetuning. Overall, MEDITRON achieves a 6% absolute performance gain over the best public baseline in its parameter class and 3% over the strongest baseline we finetuned from Llama-2. Compared to closed-source LLMs, MEDITRON-70B outperforms GPT-3.5 and Med-PaLM and is within 5% of GPT-4 and 10% of Med-PaLM-2. We release our code for curating the medical pretraining corpus and the MEDITRON model weights to drive open-source development of more capable medical LLMs.

연구 동기 및 목표

도메인 특화 지속적 사전학습이 대형 LLM의 의학적 추론을 어떻게 향상시키는지 입증한다.
재현 가능한 개발을 가능하게 하기 위해 오픈 소스 의학 사전학습 데이터, 학습 코드 및 모델 가중치를 공개한다.
맥락 학습(in-context learning)과 미세조정을 통해 MEDITRON을 주요 의학 벤치마크에서 평가한다.
더 큰 모델(70B)이 어떤 벤치마크에서 베이스라인 및 비공개 LLM보다 우수한지 비교한다.

제안 방법

PubMed/PubMed Central 논문, 초록, 임상 지침, 경험 재생 말뭄으로 구성된 의학 데이터 혼합물 GAP-REPLAY에서 Llama-2 기반 모델의 지속적 사전학습.
Llama/Llama-2/Falcon 아키텍처를 지원하고 효율적 학습(DP/PP/TP, FlashAttention)을 가능하게 하는 Megatron-LM 확장 엔지니어링.
하이퍼파라미터: 코사인 스케줄의 AdamW; 컨텍스트 2048/4096; 32k BPE 어휘; 도메인 특화 토큰 처리.
작업별 지시문을 사용하는 벤치마크 학습 세트(PubMedQA, MedMCQA, MedQA)에 대한 감독 미세조정.
Top Token Selection, Chain-of-Thought prompting(CoT), Self-Consistency CoT(SC-CoT) 등 추론 전략.
네 가지 의학 벤치마크(MedQA, MedMCQA, PubMedQA, MMLU-Medical)에서의 맥락 학습 및 미세조정 regime에서의 평가.

실험 결과

연구 질문

RQ1선정된 의학 말뭄을 통한 지속적 사전학습이 대형 LLM의 의학적 추론 성능에 어떤 영향을 미치는가?
RQ2맥락 학습과 미세조정을 사용할 때 의학 도메인에서 7B에서 70B 파라미터로 확장하는 이점은 무엇인가?
RQ3고급 추론 전략(CoT, SC-CoT)이 MEDITRON 모델의 의학적 추론에 실질적인 이점을 제공하는가?
RQ4오픈 소스 의학 LLM이 표준 의료 벤치마크에서 GPT-3.5, GPT-4, Med-PaLM과 비교해 어떤 차이가 있는가?
RQ5도메인 특화 데이터(임상 지침, PubMed 초록/논문)와 일반 데이터 간의 의학 사전학습 효율성에 미치는 영향은 무엇인가?

주요 결과

MEDITRON-7B는 맥락 학습을 통해 여러 오픈 베이스라인을 능가하며, 지속적 의학 사전학습은 기본 Llama-2-7B 대비 추가 이점을 제공합니다.
MEDITRON-70B는 PubMedQA 및 MedMCQA를 포함한 벤치마크에서 기본 Llama-2-70B 대비 크게 향상되었습니다.
Self-Consistency CoT를 사용한 MEDITRON-70B가 평가된 구성 중에서 평균 정확도 최상치를 기록했습니다(표 5에서 Avg 72.0%).
70B에서 MEDITRON-70B는 일부 상용 LLM의 성능에 근접하거나 우수하며, 일부 지표에서 GPT-3.5 및 Med-PaLM보다 우수하지만 GPT-4/Med-PaLM-2에는 아직 미치지 못합니다.
유사 MedQA 태스크에서, N컨텍스트 결과가 미세조정 기준선에 근접한 강력한 성능을 보여줍니다(예: In-context 79.8% vs 미세조정 80.0%).
릴리스에는 오픈 개발 지원을 위한 선별된 의학 사전학습 코퍼스, 학습 라이브러리 및 모델 가중치가 포함됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.