Skip to main content
QUICK REVIEW

[論文レビュー] CancerLLM: A Large Language Model in Cancer Domain

Mingchen Li, Huang, Jiatan|arXiv (Cornell University)|Jun 15, 2024
Biomedical Text Mining and Ontologies被引用数 11
ひとこと要約

CancerLLM は、7B のがん領域 LLM で、臨床・病理データを大規模に学習し、表現型抽出、診断生成、治療計画生成の微調整を行い、最先端の結果を達成し、ターゲットのテストベッドで堅牢な性能を示す。

ABSTRACT

Medical Large Language Models (LLMs) have demonstrated impressive performance on a wide variety of medical NLP tasks; however, there still lacks a LLM specifically designed for phenotyping identification and diagnosis in cancer domain. Moreover, these LLMs typically have several billions of parameters, making them computationally expensive for healthcare systems. Thus, in this study, we propose CancerLLM, a model with 7 billion parameters and a Mistral-style architecture, pre-trained on nearly 2.7M clinical notes and over 515K pathology reports covering 17 cancer types, followed by fine-tuning on two cancer-relevant tasks, including cancer phenotypes extraction and cancer diagnosis generation. Our evaluation demonstrated that the CancerLLM achieves state-of-the-art results with F1 score of 91.78% on phenotyping extraction and 86.81% on disganois generation. It outperformed existing LLMs, with an average F1 score improvement of 9.23%. Additionally, the CancerLLM demonstrated its efficiency on time and GPU usage, and robustness comparing with other LLMs. We demonstrated that CancerLLM can potentially provide an effective and robust solution to advance clinical research and practice in cancer domain

研究の動機と目的

  • がん領域の臨床NLPタスクを改善するための、がん特化LLMの作成を促進する。
  • がんデータに適したMistral風アーキテクチャを採用した7Bモデルを開発する。
  • 表現型抽出、診断生成、治療計画生成の3つの微調整データセットを作成・使用する。
  • 多様なベースラインと比較して生成品質を評価し、反事実や綴り間違いに対する頑健性を評価する。

提案手法

  • 17種類のがんデータを対象に、2,676,642件のがん臨床ノートと515,524件の病理報告を用いて、7BのMistral風LLMを事前訓練する。
  • LoRAベースの継続事前訓練を適用して、がん知識を注入する。特定のハイパーパラメータ(ランク8、アルファ16、ドロップアウト0.05、LR2e-4)。
  • LoRA(ランク64、アルファ16)を用いた3つのがん特化タスクの指示調整を実施。
  • 表現型抽出、診断生成、治療計画生成の下流データセットを、トレイン/テストが重複しないように構築。
  • Exact Match、BLEU-2、ROUGE-Lの指標で評価し、反事実および綴り間違いを含む頑健性テストベッドを含める。
  • 7B、8B、13B、70Bモデルにまたがる14のベースラインと比較し、生成品質と効率性(時間とGPUメモリ)を報告する。
Figure 1: The evolution of medical LLM performance on three tasks—cancer phenotype extraction, diagnosis generation, and treatment plan generation—is measured using the average F1 score, which includes Exact Match, BLEU-2, and ROUGE-L. Our CancerLLM achieves the highest performance with an F1 score
Figure 1: The evolution of medical LLM performance on three tasks—cancer phenotype extraction, diagnosis generation, and treatment plan generation—is measured using the average F1 score, which includes Exact Match, BLEU-2, and ROUGE-L. Our CancerLLM achieves the highest performance with an F1 score

実験結果

リサーチクエスチョン

  • RQ17B のがん領域 LLM が、がん表現型抽出、診断生成、治療計画生成において最先端の生成品質を達成できるか。
  • RQ2継続事前訓練と指示調整によるドメイン特化のがん知識注入は、より大きな一般的な医療LLMよりも性能が良いか。
  • RQ3がん臨床テキストにおける反事実ラベルと綴り間違いに対して CancerLLM はどれほど頑健か。
  • RQ4臨床現場でのコンパクトながん領域LLM の導入時に、生成時間とメモリ使用量にはどんなトレードオフがあるか。

主な発見

  • CancerLLM は、3つのタスク全体で評価されたモデルの中で最良の総合性能を達成し、診断生成でベースラインに対して平均 F1 が 8.1% 向上。
  • がん診断生成では、CancerLLM は平均 F1=86.81、EM=83.50 を達成し、7B、13B、70B のベースラインを全て上回った。
  • がん治療計画生成では、CancerLLM は平均 F1=91.78、EM=89.37 を達成し、試験したモデルの中で再び首位。
  • がん表現型抽出では、CancerLLM は平均 F1=93.98、EM=89.37 を達成し、より大きなモデルに近づくか上回る一方で、はるかに少ないパラメータを使用。
  • 頑健性テストベッドは、反事実 perturbations および綴り間違いに対して CancerLLM が競争力のある性能を維持することを示し、摂動率が上がると劣化するものの、ノイズが高い場合には強力なベースラインを上回ることが多い(例:反事実率80%時)。
  • CancerLLM は卓越した効率性を示し、表現型抽出で推論時間1:14:12、GPUメモリ使用量5,550 MBと、複数の70B対比モデルよりも大幅に低い。
Figure 2: Overview of CancerLLM
Figure 2: Overview of CancerLLM

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。