[論文レビュー] Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data
領域データで微調整された生物医療系LLMは、見たことのない医療データに対して、複数の臨床タスクで一般目的モデルに一般に劣る。生物医療向け微調整の価値は限定的であり、検索強化型アプローチが有望な代替手段として強調される。
Large language models (LLMs) have shown potential in biomedical applications, leading to efforts to fine-tune them on domain-specific data. However, the effectiveness of this approach remains unclear. This study evaluates the performance of biomedically fine-tuned LLMs against their general-purpose counterparts on a variety of clinical tasks. We evaluated their performance on clinical case challenges from the New England Journal of Medicine (NEJM) and the Journal of the American Medical Association (JAMA) and on several clinical tasks (e.g., information extraction, document summarization, and clinical coding). Using benchmarks specifically chosen to be likely outside the fine-tuning datasets of biomedical models, we found that biomedical LLMs mostly perform inferior to their general-purpose counterparts, especially on tasks not focused on medical knowledge. While larger models showed similar performance on case tasks (e.g., OpenBioLLM-70B: 66.4% vs. Llama-3-70B-Instruct: 65% on JAMA cases), smaller biomedical models showed more pronounced underperformance (e.g., OpenBioLLM-8B: 30% vs. Llama-3-8B-Instruct: 64.3% on NEJM cases). Similar trends were observed across the CLUE (Clinical Language Understanding Evaluation) benchmark tasks, with general-purpose models often performing better on text generation, question answering, and coding tasks. Our results suggest that fine-tuning LLMs to biomedical data may not provide the expected benefits and may potentially lead to reduced performance, challenging prevailing assumptions about domain-specific adaptation of LLMs and highlighting the need for more rigorous evaluation frameworks in healthcare AI. Alternative approaches, such as retrieval-augmented generation, may be more effective in enhancing the biomedical capabilities of LLMs without compromising their general knowledge.
研究の動機と目的
- 見たことのない臨床データとタスクに対して、生物医学向け微調整がLLMの性能を向上させるかを評価する。
- 多様な臨床ベンチマークにおいて、生物医学的に微調整されたLLMと一般目的のベースラインを比較する。
- 医療AIにおけるドメイン適応が有益かどうかのタスク領域を調査する。
提案手法
- NEJMおよびJAMAのケース課題で生物医学系と一般目的LLMを評価する(347件のNEJM、140件のJAMAの質問)。
- CLUEのMeDiSumQA、MeDiSumCode、MedNLI、MeQSum、ProblemSummary、LongHealthベンチマークを評価する。
- 固定の評価指標(精度、F1、ROUGE、BERTScore)をタスク全体で使用し、標準化されたプロンプトと推論設定を用いる。
- Llama、Mistral、OpenBioLLMなど、さまざまなサイズとアーキテクチャのモデルおよびチャット/指示型のバリエーションを含める。
- ベンチマークが生物医療微調整データの外側に該当する可能性を確保し、データ流出を回避する。

実験結果
リサーチクエスチョン
- RQ1見たことのない臨床ケースデータにおいて、生物医学的に微調整されたLLMは一般-purpose LLMSを上回るか?
- RQ2情報抽出、コーディング、要約タスクで、ドメイン特化型LLMは一般モデルと比較してどう性能を発揮するか?
- RQ3長文臨床文書や幻覚・誤情報が生じやすいタスクで、一般モデルの利点は一貫しているか?
- RQ4医療分野のLLMにおいて、検索加強生成(retrieval-augmented generation)アプローチは、ドメイン特化の微調整より有効である可能性があるか?
主な発見
- JAMAおよびNEJMのケース課題では、いくつかの一般系モデル(例: OpenBioLLM-70B、Llama-3-70B-Instruct)がトップの正解率を達成した(例: 66-74%)。
- Llama-3-8B-Instructはしばしば生物医学モデルを上回った(例: NEJMで64-57%対18%、JAMAで64%対18%)。
- MedNLI、ProblemSummary、MeQSumの各タスクで、すべての生物医学LLMは一般系の相手に劣っていた。
- MeDiSumCodeと一部のLong-Healthタスクは、深い知識タスクと長い文脈処理において一般系モデルの強さを強調した。
- LongHealthタスクの結果は、生物医学モデルが幻覚を多く示し、幻覚関連の評価では一般系モデルの方が相対的に良好だった。
- 全体として、より大きなモデルほど生物医学系と一般系の差が小さく、微調整だけではドメイン適応に十分でない可能性を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。