Skip to main content
QUICK REVIEW

[論文レビュー] PMC-LLaMA: Towards Building Open-source Language Models for Medicine

Chaoyi Wu, Lin, Weixiong|arXiv (Cornell University)|Apr 27, 2023
Topic Modeling被引用数 56
ひとこと要約

PMC-LLaMA は LLaMA をデータ中心の知識注入と医療指示チューニングで基づいて構築されたオープンソースの13B 医療特化言語モデルで、ChatGPT をいくつかの医療QAベンチマークで凌駕しつつ、軽量性を維持している。

ABSTRACT

Recently, Large Language Models (LLMs) have showcased remarkable capabilities in natural language understanding. While demonstrating proficiency in everyday conversations and question-answering situations, these models frequently struggle in domains that require precision, such as medical applications, due to their lack of domain-specific knowledge. In this paper, we describe the procedure for building a powerful, open-source language model specifically designed for medicine applications, termed as PMC-LLaMA. Our contributions are threefold: (i) we systematically investigate the process of adapting a general-purpose foundation language model towards medical domain, this involves data-centric knowledge injection through the integration of 4.8M biomedical academic papers and 30K medical textbooks, as well as comprehensive fine-tuning for alignment with domain-specific instructions; (ii) we contribute a large-scale, comprehensive dataset for instruction tuning. This dataset encompasses medical question-answering (QA), rationale for reasoning, and conversational dialogues, comprising a total of 202M tokens; (iii) we conduct thorough ablation studies to demonstrate the effectiveness of each proposed component. While evaluating on various public medical question-answering benchmarks, our lightweight PMCLLaMA, which consists of only 13 billion parameters, exhibits superior performance, even surpassing ChatGPT. All models, codes, datasets can be found in https://github.com/chaoyi-wu/PMC-LLaMA.

研究の動機と目的

  • データ中心の知識注入を用いて、一般目的のLLMを医療領域へ適用することを検討する。
  • 医療領域の整合性のため、Large medical corpus (MedC-K) と medical instruction-tuning dataset (MedC-I) を収集する。
  • 標準的な医療QAベンチマークでPMC-LLaMAを評価し、アブレーションを分析して重要な寄与要素を特定する。

提案手法

  • MedC-Kを形成するため、4.8M件の生物医科学論文と30K冊の教科書でトレーニングして医療知識を注入する。
  • 臨床利用ケースに合わせるため、MedC-I (202M tokens) に対して医療特化の指示チューニングを行う。
  • 二段階のトレーニングを使用: 知識注入(自己回帰損失)→ 指示チューニング(I, R 形式、合理、知識グラフプロンプト)
  • 指示チューニングには三つのデータ源を取り入れる: 医療会話データ、合理QA、知識グラフプロンプト(UMLS)
  • PubMedQA、MedMCQA、USMLE の三つの公開医療QAベンチマークを用いて評価し、モデルサイズ、データ注入、指示チューニングのアブレーションを実施する。

実験結果

リサーチクエスチョン

  • RQ1データ中心の知識注入と医療特化の指示チューニングの後、13BのオープンソースLLMは医療QAでより大きなクローズドモデル(例: ChatGPT)に対して競争力を持つか、あるいは凌ぐことができるか?
  • RQ2さまざまな要素(論文/書籍の知識注入、合理QA、会話データ、知識グラフプロンプティング)が医療QAの性能にどのように寄与するか?
  • RQ3モデル規模とトレーニング手法が医療QAベンチマークに与える影響は何か?

主な発見

モデルサイズ知識注入(論文)知識注入(書籍)指示チューニング(合理)MedQAMedMCQAPubMedQA平均
7B Baseline LLaMA%%%44.5448.5173.40-
13B Baseline LLaMA%%%45.4851.4276.40-
PMC-LLaMAK 7B!%%44.7050.5469.50-
PMC-LLaMAK 7B (with Rationale)!!%45.5651.4574.60-
PMC-LLaMAK 13B%%%48.1554.1577.10-
PMC-LLaMA 13B (initial)!!!49.3254.5677.20-
PMC-LLaMA 13B (full setup)!!!56.3656.0477.90-
  • 医療知識注入と指示チューニングを完全に適用したPMC-LLaMA-13Bは、MedQA・MedMCQA・PubMedQAを横断した平均QA精度で、いくつかのベースラインを上回る(64.43)。
  • アブレーションでは、書籍を追加するとMedQA、MedMCQA、PubMedQAのスコアが最大およそ1.0–2.9ポイント向上; 論文を追加しても得点が上昇; より大きなモデルサイズ(13B)は7Bより性能を向上させる。
  • 指示チューニング中の医療合理QAと知識グラフプロンプティングの導入は性能を引き上げる(例: MedQA: 49.32% から 54.43% へ、知識グラフは約1.93%を追加)。会話データと合理データはゼロショットQAを大きく改善。
  • フルセットアップのPMC-LLaMA-13Bは、評価ベンチマークでChatGPTより高い平均QA精度を達成(MedQA/MedMCQA/PubMedQAでChatGPTの平均54.97に対し64.43)。
  • 本モデルは著者のGitHubでコードとデータが公開されたオープンソースのままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。