Skip to main content
QUICK REVIEW

[論文レビュー] Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

Hyunjae Kim, Hyeon Kyeong Hwang|arXiv (Cornell University)|Mar 30, 2024
Text Readability and Simplification被引用数 5
ひとこと要約

この論文は Meerkat-7B を提示します。7B のオープンソース医療言語モデルは、教科書のチェイン・オブ・ソートデータで訓練され、USMLEを合格する性能を達成し、いくつかの7B/オープンモデルを上回っています。

ABSTRACT

While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source models, their limited parameters often result in insufficient multi-step reasoning capabilities required for solving complex medical problems. To address this, we introduce Meerkat, a new family of medical AI systems ranging from 7 to 70 billion parameters. The models were trained using our new synthetic dataset consisting of high-quality chain-of-thought reasoning paths sourced from 18 medical textbooks, along with diverse instruction-following datasets. Our systems achieved remarkable accuracy across six medical benchmarks, surpassing the previous best models such as MediTron and BioMistral, and GPT-3.5 by a large margin. Notably, Meerkat-7B surpassed the passing threshold of the United States Medical Licensing Examination (USMLE) for the first time for a 7B-parameter model, while Meerkat-70B outperformed GPT-4 by an average of 1.3%. Additionally, Meerkat-70B correctly diagnosed 21 out of 38 complex clinical cases, outperforming humans' 13.8 and closely matching GPT-4's 21.8. Our systems offered more detailed free-form responses to clinical queries compared to existing small models, approaching the performance level of large commercial models. This significantly narrows the performance gap with large LMs, showcasing its effectiveness in addressing complex medical challenges.

研究の動機と目的

  • データをクローズドソースシステムにさらさず、安全でプライバシーを保護した医療AIを実現する。
  • 多段階の医療推論を強化したオープン7Bモデルを開発する。
  • CoT ファインチューニングと教科書ベースの強化が医療QAの性能を向上させることを示す。
  • USMLE風タスクから実臨床の質問へ推論の転移可能性を示す。

提案手法

  • 指示に従うデータを用いて Mistral-7B バックボーンをファインチューニングする。
  • GPT-4 を用いて MedQA から 9.3K 個の CoT サンプル、18 冊の医療教科書からは 78K 個の CoT サンプルを生成する。
  • 教科書に由来する QA ペアと CoT パスを含む MedBooks-CoT-18 を作成する。
  • 医療用途の多様な指示遵守データセットで訓練データを拡張する。
  • 8×80G A100 GPU で3エポック、次トークン予測で訓練する。
  • 複数の医療ベンチマークとCoTデータのアブレーション分析で評価する。
Figure 1: Overview of recent advances in language models (LM) based on their performance on the MedQA benchmark [ 28 ] . Large closed-source models have surpassed the USMLE passing threshold, reaching a state-of-the-art performance with 90% accuracy [ 8 ] . On the other hand, the previous best open-
Figure 1: Overview of recent advances in language models (LM) based on their performance on the MedQA benchmark [ 28 ] . Large closed-source models have surpassed the USMLE passing threshold, reaching a state-of-the-art performance with 90% accuracy [ 8 ] . On the other hand, the previous best open-

実験結果

リサーチクエスチョン

  • RQ1CoTファインチューニングは、QAデータのみで訓練した場合と比べて医療QAベンチマークの性能にどう影響するか。
  • RQ2教科書由来のCoTパスで訓練データを増強すると、CoTのみより性能が向上するか。
  • RQ37BのオープンモデルがUSMLEの合格閾値を超え、標準的な医療ベンチマークでより大きなオープンモデルを上回れるか。
  • RQ4Meerkat-7B の説明は人間の説明やより大きなLMとどう比較されるか?

主な発見

  • Meerkat-7B は7つの医療ベンチマークで平均正解率64.2%を達成し、GPT-3.5より13.1ポイント、MediTron-7Bより13.4ポイント、BioMistral-7Bより9.8ポイント上回る。
  • MedQAでは74.3%(MedQA)、USMLEサンプルテストで71.4%を達成し、7BモデルとしてUSMLE閾値を超える。
  • Meerkat-7B はUSMLE風タスクでMediTron-7BおよびBioMistral-7Bを上回り、自由回答の臨床応答ではGPT-3.5と競合的な性能を示す。
  • アブレーションによりCoTファインチューニングはMedQAの性能をモデル横断で平均7.5%向上させ、MedBooks-CoT-18データの追加でさらに精度が5.4%向上。
  • Meerkat-7B の説明は正解性と相関がある。ROUGE-LとBERTScoreはMeerkat-7Bを支持し、GPT-4が全体で最も高いスコア。
  • Meerkat-7B は臨床クエリに対してより詳しい自由回答を提供でき、GPT-3.5と同程度の事実性を維持する。
Figure 2: Performance of models on seven multiple-choice QA benchmark datasets. Our Meerkat-7B models generally outperformed existing 7B models and GPT-3.5 and even outperformed MediTron-70B on MedQA. The scores of GPT-3.5, GPT-4 and MediTron-70B are obtained from the papers of Nori et al. [ 6 ] , T
Figure 2: Performance of models on seven multiple-choice QA benchmark datasets. Our Meerkat-7B models generally outperformed existing 7B models and GPT-3.5 and even outperformed MediTron-70B on MedQA. The scores of GPT-3.5, GPT-4 and MediTron-70B are obtained from the papers of Nori et al. [ 6 ] , T

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。