QUICK REVIEW

[論文レビュー] Classifying Cancer Stage with Open-Source Clinical Large Language Models

Chia‐Hsuan Chang, Mary M. Lucas|arXiv (Cornell University)|Apr 2, 2024

Radiomics and Machine Learning in Medical Imaging被引用数 5

ひとこと要約

本論文は、オープンソースの臨床LLMがラベル付きトレーニングデータなしで非構造化の病理報告から病理TNMがんステージを抽出できることを示し、 prompting strategiesを用いた場合、T、N、Mカテゴリ全体でファインチューミング済みのベンチマークと競合する性能を達成している。

ABSTRACT

Cancer stage classification is important for making treatment and care management plans for oncology patients. Information on staging is often included in unstructured form in clinical, pathology, radiology and other free-text reports in the electronic health record system, requiring extensive work to parse and obtain. To facilitate the extraction of this information, previous NLP approaches rely on labeled training datasets, which are labor-intensive to prepare. In this study, we demonstrate that without any labeled training data, open-source clinical large language models (LLMs) can extract pathologic tumor-node-metastasis (pTNM) staging information from real-world pathology reports. Our experiments compare LLMs and a BERT-based model fine-tuned using the labeled data. Our findings suggest that while LLMs still exhibit subpar performance in Tumor (T) classification, with the appropriate adoption of prompting strategies, they can achieve comparable performance on Metastasis (M) classification and improved performance on Node (N) classification.

研究の動機と目的

非構造化病理報告からがんのTNMステージを自動抽出する動機付け。
ラベル付きトレーニングデータなしでpTNM分類のためのオープンソース臨床LLMを評価する。
LLMのプロンプト戦略を比較し、ファインチューニング済みモデルと比較したベンチマーク性能を評価する。
TCGAの病理報告に含まれるT、N、Mカテゴリおよび癌種間での堅牢性を評価する。

提案手法

ファインチューニングなしでTNM分類を評価するため、TCGA病理報告（ground truthを含む6,940件）を使用。
3つのオープンソースLLM：Llama-2-70b-chat、ClinicalCamel-70B、Med42-70Bを、ファインチューニング済みのClinical-BigBirdをベースラインとして比較。
3つのプロンプト戦略を適用：Zero-shot、Zero-shot Chain-of-Thoughts（ZS-COT）、Few-shots。
モデル出力後に正規表現パターンを用いてTNMラベルを抽出（T: T1–T4、N: N0–N3、M: M0–M1）。
マクロ精度、再現率、F1で性能を評価し、95%信頼区間を求めるためにブートストラップ（B=500）を用いる。

実験結果

リサーチクエスチョン

RQ1オープンソースの臨床LLMは、ラベル付きトレーニングデータなしで実世界の病理報告からpTNMステージを抽出できるか？
RQ2異なるプロンプト戦略は、T、N、MカテゴリのTNM分類性能にどのように影響するか？
RQ3pTNM抽出におけるオープンソースの臨床LLMは、ファインチューニング済みのClinical-BigBirdベースラインとどう比較されるか？
RQ4BRCA、LUAD などの癌種やTNMカテゴリによって性能は変動するか？
RQ5実世界の異種報告における臨床 staging に対するオープンソースLLMの導入の長所と限界は何か？

主な発見

オープンソースLLMは、病理報告からトレーニングデータなしでpTNMステージを抽出できる。
ClinicalCamel-70BとMed42-70BはZero-shot promptingの下でLlama-2-70b-chatを上回り、NおよびMカテゴリでClinical-BigBirdと同等かそれよりも良いマクロF1を達成する。
Zero-shot chain-of-thought promptingは、いくつかのモデルでT、N、M全体のマクロF1をZero-shotのみより改善する。
Few-shot promptingは一般にマクロF1を改善せず、機関間のデータセット変動により性能が低下する可能性がある。
Med42-70BはZS-COTまたはFSと組み合わせてNおよびMカテゴリで高い性能を示し、いくつかの癌種分析ではClinical-BigBirdを上回る。
M1（遠隔転移）は全モデルで依然として最も難しいクラスで、希少クラスのマクロF1は一貫して低い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。