[論文レビュー] CORAL: Expert-Curated medical Oncology Reports to Advance Language Model Inference
論文は詳細な腫瘍学注釈スキーマを導入し、annotated breast and pancreatic cancer progress notesに対するゼロショットLLM(GPT-4、GPT-3.5-turbo、FLAN-UL2)の評価を実施、GPT-4が総合性能で最良を達成。
Both medical care and observational studies in oncology require a thorough understanding of a patient's disease progression and treatment history, often elaborately documented in clinical notes. Despite their vital role, no current oncology information representation and annotation schema fully encapsulates the diversity of information recorded within these notes. Although large language models (LLMs) have recently exhibited impressive performance on various medical natural language processing tasks, due to the current lack of comprehensively annotated oncology datasets, an extensive evaluation of LLMs in extracting and reasoning with the complex rhetoric in oncology notes remains understudied. We developed a detailed schema for annotating textual oncology information, encompassing patient characteristics, tumor characteristics, tests, treatments, and temporality. Using a corpus of 40 de-identified breast and pancreatic cancer progress notes at University of California, San Francisco, we applied this schema to assess the zero-shot abilities of three recent LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to extract detailed oncological history from two narrative sections of clinical progress notes. Our team annotated 9028 entities, 9986 modifiers, and 5312 relationships. The GPT-4 model exhibited overall best performance, with an average BLEU score of 0.73, an average ROUGE score of 0.72, an exact-match F1-score of 0.51, and an average accuracy of 68% on complex tasks (expert manual evaluation on subset). Notably, it was proficient in tumor characteristic and medication extraction, and demonstrated superior performance in relational inference like adverse event detection. However, further improvements are needed before using it to reliably extract important facts from cancer progress notes needed for clinical research, complex population management, and documenting quality patient care.
研究の動機と目的
- 臨床ノート内で包括的な腫瘍学情報表現の必要性を動機付ける。
- テキストの腫瘍学情報を注釈付けする詳細スキーマを開発・適用する(患者/腫瘍特性、検査、治療、時制)。
- 主要なLLMのゼロショット能力を、腫瘍ノートの抽出と推論において評価する。
- 自動メトリクスと専門家評価を用いて、実質的に脱識別化されたデータセットで抽出性能を定量化する。
提案手法
- 患者特性、腫瘍特性、検査、治療、時制をカバーする注釈スキーマを作成する。
- UCSFから脱識別された40件の乳がんおよび膵臓がんの進行ノートのコーパスを収集する。
- スキーマを用いて9028個のエンティティ、9986個の修飾語、5312個の関係を注釈付けする。
- 2つの物語的セクションから腫瘍学的履歴を抽出するため、3つのLLM(GPT-4、GPT-3.5-turbo、FLAN-UL2)のゼロショット推論を適用する。
- BLEU、ROUGE、正解一致F1、全体の正確性を用いて専門家による手動注釈と比較評価する。専門家サブセット評価を実施する。
実験結果
リサーチクエスチョン
- RQ1CORALスキーマを用いて、ゼロショットLLMは物語的な進行ノートから構造化された腫瘍学履歴をどの程度抽出できるか?
- RQ2GPT-4、GPT-3.5-turbo、FLAN-UL2のうち、腫瘍ノートのエンティティ、関係、関係推論タスクで最も良い性能を示すモデルはどれか?
- RQ3腫瘍特性、薬剤、副作用の関係を腫瘍ノートに取り込む際、現行のLLMの長所と限界は何か?
主な発見
- GPT-4は評価対象モデルの中で最も強い総合性能を示した。
- GPT-4の平均BLEUスコア: 0.73。
- GPT-4の平均ROUGEスコア: 0.72。
- GPT-4の正解一致F1スコア: 0.51。
- 複雑なタスクにおけるGPT-4の平均正確性: 68%(専門家サブセット評価)。
- GPT-4は腫瘍特性と薬剤抽出、および副作用検出のような関係推論において熟練を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。