QUICK REVIEW

[論文レビュー] PMC-LLaMA: Towards Building Open-source Language Models for Medicine

Chaoyi Wu, Lin, Weixiong|arXiv (Cornell University)|Apr 27, 2023

Topic Modeling被引用数 56

ひとこと要約

PMC-LLaMA は LLaMA をデータ中心の知識注入と医療指示チューニングで基づいて構築されたオープンソースの13B 医療特化言語モデルで、ChatGPT をいくつかの医療QAベンチマークで凌駕しつつ、軽量性を維持している。

ABSTRACT

Recently, Large Language Models (LLMs) have showcased remarkable capabilities in natural language understanding. While demonstrating proficiency in everyday conversations and question-answering situations, these models frequently struggle in domains that require precision, such as medical applications, due to their lack of domain-specific knowledge. In this paper, we describe the procedure for building a powerful, open-source language model specifically designed for medicine applications, termed as PMC-LLaMA. Our contributions are threefold: (i) we systematically investigate the process of adapting a general-purpose foundation language model towards medical domain, this involves data-centric knowledge injection through the integration of 4.8M biomedical academic papers and 30K medical textbooks, as well as comprehensive fine-tuning for alignment with domain-specific instructions; (ii) we contribute a large-scale, comprehensive dataset for instruction tuning. This dataset encompasses medical question-answering (QA), rationale for reasoning, and conversational dialogues, comprising a total of 202M tokens; (iii) we conduct thorough ablation studies to demonstrate the effectiveness of each proposed component. While evaluating on various public medical question-answering benchmarks, our lightweight PMCLLaMA, which consists of only 13 billion parameters, exhibits superior performance, even surpassing ChatGPT. All models, codes, datasets can be found in https://github.com/chaoyi-wu/PMC-LLaMA.

研究の動機と目的

データ中心の知識注入を用いて、一般目的のLLMを医療領域へ適用することを検討する。
医療領域の整合性のため、Large medical corpus (MedC-K) と medical instruction-tuning dataset (MedC-I) を収集する。
標準的な医療QAベンチマークでPMC-LLaMAを評価し、アブレーションを分析して重要な寄与要素を特定する。

提案手法

MedC-Kを形成するため、4.8M件の生物医科学論文と30K冊の教科書でトレーニングして医療知識を注入する。
臨床利用ケースに合わせるため、MedC-I (202M tokens) に対して医療特化の指示チューニングを行う。
二段階のトレーニングを使用: 知識注入（自己回帰損失）→ 指示チューニング（I, R 形式、合理、知識グラフプロンプト）
指示チューニングには三つのデータ源を取り入れる: 医療会話データ、合理QA、知識グラフプロンプト（UMLS）
PubMedQA、MedMCQA、USMLE の三つの公開医療QAベンチマークを用いて評価し、モデルサイズ、データ注入、指示チューニングのアブレーションを実施する。

実験結果

リサーチクエスチョン

RQ1データ中心の知識注入と医療特化の指示チューニングの後、13BのオープンソースLLMは医療QAでより大きなクローズドモデル（例: ChatGPT）に対して競争力を持つか、あるいは凌ぐことができるか？
RQ2さまざまな要素（論文/書籍の知識注入、合理QA、会話データ、知識グラフプロンプティング）が医療QAの性能にどのように寄与するか？
RQ3モデル規模とトレーニング手法が医療QAベンチマークに与える影響は何か？

主な発見

モデルサイズ	知識注入（論文）	知識注入（書籍）	指示チューニング（合理）	MedQA	MedMCQA	PubMedQA	平均
7B Baseline LLaMA	%	%	%	44.54	48.51	73.40	-
13B Baseline LLaMA	%	%	%	45.48	51.42	76.40	-
PMC-LLaMAK 7B	!	%	%	44.70	50.54	69.50	-
PMC-LLaMAK 7B (with Rationale)	!	!	%	45.56	51.45	74.60	-
PMC-LLaMAK 13B	%	%	%	48.15	54.15	77.10	-
PMC-LLaMA 13B (initial)	!	!	!	49.32	54.56	77.20	-
PMC-LLaMA 13B (full setup)	!	!	!	56.36	56.04	77.90	-

医療知識注入と指示チューニングを完全に適用したPMC-LLaMA-13Bは、MedQA・MedMCQA・PubMedQAを横断した平均QA精度で、いくつかのベースラインを上回る（64.43）。
アブレーションでは、書籍を追加するとMedQA、MedMCQA、PubMedQAのスコアが最大およそ1.0–2.9ポイント向上; 論文を追加しても得点が上昇; より大きなモデルサイズ（13B）は7Bより性能を向上させる。
指示チューニング中の医療合理QAと知識グラフプロンプティングの導入は性能を引き上げる（例: MedQA: 49.32% から 54.43% へ、知識グラフは約1.93%を追加）。会話データと合理データはゼロショットQAを大きく改善。
フルセットアップのPMC-LLaMA-13Bは、評価ベンチマークでChatGPTより高い平均QA精度を達成（MedQA/MedMCQA/PubMedQAでChatGPTの平均54.97に対し64.43）。
本モデルは著者のGitHubでコードとデータが公開されたオープンソースのままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。