Skip to main content
QUICK REVIEW

[논문 리뷰] Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

Hyunjae Kim, Hyeon Kyeong Hwang|arXiv (Cornell University)|2024. 03. 30.
Text Readability and Simplification인용 수 5
한 줄 요약

본 논문은 교과서에서 얻은 chain-of-thought 데이터로 학습된 7B 오픈소스 의료 언어 모델 Meerkat-7B를 제시하며, USMLE 합격 성능을 달성하고 여러 7B/오픈 모델을 능가한다.

ABSTRACT

While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source models, their limited parameters often result in insufficient multi-step reasoning capabilities required for solving complex medical problems. To address this, we introduce Meerkat, a new family of medical AI systems ranging from 7 to 70 billion parameters. The models were trained using our new synthetic dataset consisting of high-quality chain-of-thought reasoning paths sourced from 18 medical textbooks, along with diverse instruction-following datasets. Our systems achieved remarkable accuracy across six medical benchmarks, surpassing the previous best models such as MediTron and BioMistral, and GPT-3.5 by a large margin. Notably, Meerkat-7B surpassed the passing threshold of the United States Medical Licensing Examination (USMLE) for the first time for a 7B-parameter model, while Meerkat-70B outperformed GPT-4 by an average of 1.3%. Additionally, Meerkat-70B correctly diagnosed 21 out of 38 complex clinical cases, outperforming humans' 13.8 and closely matching GPT-4's 21.8. Our systems offered more detailed free-form responses to clinical queries compared to existing small models, approaching the performance level of large commercial models. This significantly narrows the performance gap with large LMs, showcasing its effectiveness in addressing complex medical challenges.

연구 동기 및 목표

  • 데이터를 폐쇄 소스 시스템에 노출시키지 않으면서 안전하고 프라이버시를 보장하는 의료 AI의 개발을 촉진한다.
  • 다중 단계의 의료 추론이 향상된 오픈 7B 모델을 개발한다.
  • CoT 미세조정과 교과서 기반 보강이 의학 QA 성능을 향상시킨다는 것을 보인다.
  • USMLE 유사 과제에서의 추론 능력이 실제 임상 질문으로의 전달 가능성을 보여준다.

제안 방법

  • 지시 따르기 데이터로 Mistral-7B 백본을 미세조정한다.
  • GPT-4를 사용해 MedQA에서 9.3K CoT 예제와 18권의 의학 교과서에서 78K CoT 예제를 생성한다.
  • 교과서에서 파생된 QA 쌍과 CoT 경로를 포함한 MedBooks-CoT-18을 만든다.
  • 의료용 사례에 대해 다양한 지시 따르기 데이터셋으로 학습을 보강한다.
  • 8x80G A100 GPU에서 3 에폭에 걸쳐 다음 토큰 예측으로 학습한다.
  • 여러 의학 벤치마크와 CoT 데이터의 소거 분석을 통해 평가한다.
Figure 1: Overview of recent advances in language models (LM) based on their performance on the MedQA benchmark [ 28 ] . Large closed-source models have surpassed the USMLE passing threshold, reaching a state-of-the-art performance with 90% accuracy [ 8 ] . On the other hand, the previous best open-
Figure 1: Overview of recent advances in language models (LM) based on their performance on the MedQA benchmark [ 28 ] . Large closed-source models have surpassed the USMLE passing threshold, reaching a state-of-the-art performance with 90% accuracy [ 8 ] . On the other hand, the previous best open-

실험 결과

연구 질문

  • RQ1CoT 미세조정이 QA 데이터로만 훈련했을 때보다 의학 QA 벤치마크에서 성능에 어떤 영향을 주는가?
  • RQ2교과서에서 파생된 CoT 경로로 학습 데이터를 보강하는 것이 CoT 만으로의 경우를 넘어 성능을 향상시키는가?
  • RQ37B 오픈 모델이 USMLE 합격 임계값을 넘고 표준 의학 벤치마크에서 더 큰 오픈 모델들을 능가할 수 있는가?
  • RQ4Meerkat-7B의 설명(ROUGE-L, BERTScore, GPT-4 점수)은 인간의 설명 및 더 큰 LMs와 어떻게 비교되는가?

주요 결과

  • Meerkat-7B가 일곱 개의 의학 벤치마크에서 평균 정확도 64.2%를 달성하여 GPT-3.5보다 13.1%p, MediTron-7B보다 13.4%p, BioMistral-7B보다 9.8%p 더 높은 성과를 보였다.
  • MedQA에서 Meerkat-7B는 74.3%(MedQA)와 USMLE 샘플 테스트에서 71.4%를 달성하여 7B 모델에 대한 USMLE 임계값을 넘었다.
  • Meerkat-7B는 USMLE형 작업에서 MediTron-7B 및 BioMistral-7B를 능가하고 자유형 임상 응답에서 GPT-3.5와의 경쟁력 있는 성능을 보인다.
  • 소거 분석은 CoT 미세조정이 MedQA 성능을 모델 간 평균 7.5% 향상시켰고; MedBooks-CoT-18 데이터를 추가하면 정확도가 추가로 5.4% 증가한다.
  • Meerkat-7B의 설명은 정답의 정답성(정답 타당성)과 상관관계가 있으며; ROUGE-L 및 BERTScore는 Meerkat-7B에 유리하고 GPT-4가 전체적으로 가장 높은 점수를 받는다.
  • Meerkat-7B는 임상 질의에 대해 더 상세한 자유 형식 응답을 제공하면서도 GPT-3.5에 비해 사실성 유지 측면에서 비슷한 수준을 보일 수 있다.
Figure 2: Performance of models on seven multiple-choice QA benchmark datasets. Our Meerkat-7B models generally outperformed existing 7B models and GPT-3.5 and even outperformed MediTron-70B on MedQA. The scores of GPT-3.5, GPT-4 and MediTron-70B are obtained from the papers of Nori et al. [ 6 ] , T
Figure 2: Performance of models on seven multiple-choice QA benchmark datasets. Our Meerkat-7B models generally outperformed existing 7B models and GPT-3.5 and even outperformed MediTron-70B on MedQA. The scores of GPT-3.5, GPT-4 and MediTron-70B are obtained from the papers of Nori et al. [ 6 ] , T

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.