Skip to main content
QUICK REVIEW

[論文レビュー] PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

Yuchen Liu, Wenbo Zhang|arXiv (Cornell University)|Mar 11, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文は PET-F2I-41K 大規模 PET/CT インプレッションベンチマークと、LoRA で微調整されたドメイン適応 7B モデル PET-F2I-7B を提案し、27 のベースラインより臨床的正確性とプライバシー保護を実現したローカル実行を達成する。

ABSTRACT

PET/CT imaging is pivotal in oncology and nuclear medicine, yet summarizing complex findings into precise diagnostic impressions is labor-intensive. While LLMs have shown promise in medical text generation, their capability in the highly specialized domain of PET/CT remains underexplored. We introduce PET-F2I-41K (PET Findings-to-Impression Benchmark), a large-scale benchmark for PET/CT impression generation using LLMs, constructed from over 41k real-world reports. Using PET-F2I-41K, we conduct a comprehensive evaluation of 27 models across proprietary frontier LLMs, open-source generalist models, and medical-domain LLMs, and we develop a domain-adapted 7B model (PET-F2I-7B) fine-tuned from Qwen2.5-7B-Instruct via LoRA. Beyond standard NLG metrics (e.g., BLEU-4, ROUGE-L, BERTScore), we propose three clinically grounded metrics - Entity Coverage Rate (ECR), Uncovered Entity Rate (UER), and Factual Consistency Rate (FCR) - to assess diagnostic completeness and factual reliability. Experiments reveal that neither frontier nor medical-domain LLMs perform adequately in zero-shot settings. In contrast, PET-F2I-7B achieves substantial gains (e.g., 0.708 BLEU-4) and a 3.0x improvement in entity coverage over the strongest baseline, while offering advantages in cost, latency, and privacy. Beyond this modeling contribution, PET-F2I-41K establishes a standardized evaluation framework to accelerate the development of reliable and clinically deployable reporting systems for PET/CT.

研究の動機と目的

  • PET/CT レポートインプレッションの臨床的厳密評価の欠如に対処する。
  • 臨床 grounded 指標を備えた大規模な PET/CT インプレッションベンチマーク(PET-F2I-41K)を作成する。
  • 正確でプライベートな PET/CT レポーティングのためのドメイン適応・パラメータ効率の高いモデル(PET-F2I-7B)を開発する。
  • 信頼性の高い臨床導入を促進する標準化評価フレームワークを提供する。)

提案手法

  • 41,191 件の実世界の PET/CT レポート(2013–2023)から PET-F2I-41K を構築し、厳格な学習/検証/テスト分割を適用する。
  • 標準的な NLG 指標と提案された臨床指標に対して frontier、オープンソース、医療ドメインの LLM を用い 27 モデルをベンチマークする。
  • 3 つの臨床指標を定義する:Entity Coverage Rate(ECR)、Uncovered Entity Rate(UER)、Factual Consistency Rate(FCR)を医療語彙に対する貪欲な最長一致 NER で用いる。
  • プライバシー保護のローカル推論のために LoRA(r=64, α=128)を用いて Qwen2.5-7B-Instruct からドメイン適応済みの7B モデル(PET-F2I-7B)をファインチューニングする。
  • 外部放射性薬剤や臨床指標が NLG 指標と独立して頑健性を評価できるように評価する。

実験結果

リサーチクエスチョン

  • RQ1ゼロショットの汎用 LLM が PET/CT インプレッションを完全かつ事実に基づく診断として信頼性高く生成できるか。
  • RQ2専門医療 LLM や frontier モデルは、ドメイン適応済みでローカル展開可能なモデルと比較して PET/CT インプレッションで優位性があるか。
  • RQ3新しい臨床指標(ECR、UER、FCR)は従来の NLG 指標より診断の安全性と構造的整合性をより適切に捉えるか。
  • RQ4LoRA を用いた compact モデルのドメイン適応がクラウド展開なしで臨床的正確性とプライバシーを向上させるか。

主な発見

カテゴリモデルBLEU-4ROUGE-LMETEORBERTScoreSBERTECRUERFCR
Proprietary Claude Opus 4.5 [ 1 ]0.25320.35200.56920.75900.64330.52680.54170.9814
Proprietary Claude Sonnet 4.5 [ 1 ]0.23740.35870.53690.75620.62860.52220.54340.9734
Open-Source (Large) Gemini 2.5 Pro [ 7 ]0.21120.41930.51270.76430.65970.43790.51520.9618
Open-Source (Large) Gemini 2.0 Flash [ 11 ]0.18970.47920.46530.75160.64010.41530.49470.9628
Open-Source (Large) GPT-4o [ 21 ]0.18760.32480.45770.73440.59900.43460.58830.9756
Open-Source (Large) GPT-5.1 [ 21 ]0.16810.29630.47680.73270.58880.46220.62500.9898
Open-Source (Large) DeepSeek V3.2 [ 9 ]0.24010.38220.52960.75660.63390.50800.57040.9778
Open-Source (Large) Kimi-K2 [ 29 ]0.21900.33980.50520.75570.61520.46380.50620.9548
Open-Source (Large) GLM-4.6 [ 12 ]0.20670.36390.48720.75290.61390.43810.53290.9714
Open-Source (Large) DeepSeek R1 [ 9 ]0.15170.23340.38050.70030.54890.36860.61200.9024
Open-Source (Large) Qwen3-235B [ 34 ]0.14800.28270.42010.73220.61940.56120.67090.9702
Open-Source (Large) MiniMax-M20.13320.23230.35880.68750.56970.32920.66810.8590
Open-Source (7B) Qwen3-8B [ 34 ]0.15520.33650.38400.70760.74570.33490.64640.9368
Open-Source (7B) Qwen2.5-7B [ 24 ]0.14950.31520.37390.72340.58540.33870.65670.9522
Open-Source (7B) InternLM2.5-7B0.12800.28870.26180.70290.58540.32710.68330.9452
Open-Source (7B) Seed-Rice-7B [ 35 ]0.12250.29870.23710.70100.60760.34770.72070.9727
Open-Source (7B) Hunyuan-MT-7B [ 40 ]0.10450.26030.26880.68890.58600.24870.68360.8214
Open-Source (7B) GLM-4-9B [ 12 ]0.07330.21890.28650.69290.62860.21100.58980.7178
Medical Domain BioGPT [ 19 ]0.17610.32940.43230.73480.60610.38570.56090.9470
Medical Domain BioMedLM [ 3 ]0.17500.33050.42950.73650.60270.38340.55780.9530
Medical Domain Meditron [ 4 ]0.17280.32990.42530.73640.60390.38790.55040.9482
Medical Domain Baichuan-M3 [ 31 ]0.17050.33590.42480.73590.60800.37190.54910.9400
Medical Domain Clinical Camel [ 30 ]0.16850.32270.42010.73460.60060.36310.55830.9404
Medical Domain PMC-LLaMA [ 32 ]0.16430.33100.41870.73320.59640.36530.55420.9360
Medical Domain MedGemma-4B [ 8 ]0.16260.33450.41330.73480.59670.35970.54810.9328
Medical Domain Med-PaLM 2 [ 26 ]0.15630.32220.40320.72980.58540.35440.54840.9268
Ours PET-F2I-7B0.70750.86730.89420.91030.96490.80740.16490.9420
  • PET-F2I-7B は標準的な NLG 指標と臨床指標の双方で最先端の性能を達成した。
  • PET-F2I-7B は 0.7075 BLEU-4 と 0.8673 ROUGE-L、0.8942 METEOR、0.9103 BERTScore、0.9649 SBERT を得た。
  • PET-F2I-7B は 0.8074 ECR と 0.1649 UER、0.9420 FCR を達成し、高い診断完結性、低い虚偽生成、強い形式整合性を示した。
  • ドメイン適応済みの 7B モデルは strongest baseline に対して正確なエンティティのカバレッジで 3.0×の改善を示す。
  • ゼロショットの frontier および医療ドメイン LLM は臨床的完結性が低く、幻覚の高リスク(低 ECR、高 UER)を示す。
  • PET-F2I-7B は訓練分布外の少数派放射薬剤にも頑健に一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。