QUICK REVIEW

[論文レビュー] PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

Yuchen Liu, Wenbo Zhang|arXiv (Cornell University)|Mar 11, 2026

Topic Modeling被引用数 0

ひとこと要約

本論文は PET-F2I-41K 大規模 PET/CT インプレッションベンチマークと、LoRA で微調整されたドメイン適応 7B モデル PET-F2I-7B を提案し、27 のベースラインより臨床的正確性とプライバシー保護を実現したローカル実行を達成する。

ABSTRACT

PET/CT imaging is pivotal in oncology and nuclear medicine, yet summarizing complex findings into precise diagnostic impressions is labor-intensive. While LLMs have shown promise in medical text generation, their capability in the highly specialized domain of PET/CT remains underexplored. We introduce PET-F2I-41K (PET Findings-to-Impression Benchmark), a large-scale benchmark for PET/CT impression generation using LLMs, constructed from over 41k real-world reports. Using PET-F2I-41K, we conduct a comprehensive evaluation of 27 models across proprietary frontier LLMs, open-source generalist models, and medical-domain LLMs, and we develop a domain-adapted 7B model (PET-F2I-7B) fine-tuned from Qwen2.5-7B-Instruct via LoRA. Beyond standard NLG metrics (e.g., BLEU-4, ROUGE-L, BERTScore), we propose three clinically grounded metrics - Entity Coverage Rate (ECR), Uncovered Entity Rate (UER), and Factual Consistency Rate (FCR) - to assess diagnostic completeness and factual reliability. Experiments reveal that neither frontier nor medical-domain LLMs perform adequately in zero-shot settings. In contrast, PET-F2I-7B achieves substantial gains (e.g., 0.708 BLEU-4) and a 3.0x improvement in entity coverage over the strongest baseline, while offering advantages in cost, latency, and privacy. Beyond this modeling contribution, PET-F2I-41K establishes a standardized evaluation framework to accelerate the development of reliable and clinically deployable reporting systems for PET/CT.

研究の動機と目的

PET/CT レポートインプレッションの臨床的厳密評価の欠如に対処する。
臨床 grounded 指標を備えた大規模な PET/CT インプレッションベンチマーク（PET-F2I-41K）を作成する。
正確でプライベートな PET/CT レポーティングのためのドメイン適応・パラメータ効率の高いモデル（PET-F2I-7B）を開発する。
信頼性の高い臨床導入を促進する標準化評価フレームワークを提供する。）

提案手法

41,191 件の実世界の PET/CT レポート（2013–2023）から PET-F2I-41K を構築し、厳格な学習/検証/テスト分割を適用する。
標準的な NLG 指標と提案された臨床指標に対して frontier、オープンソース、医療ドメインの LLM を用い 27 モデルをベンチマークする。
3 つの臨床指標を定義する：Entity Coverage Rate（ECR）、Uncovered Entity Rate（UER）、Factual Consistency Rate（FCR）を医療語彙に対する貪欲な最長一致 NER で用いる。
プライバシー保護のローカル推論のために LoRA（r=64, α=128）を用いて Qwen2.5-7B-Instruct からドメイン適応済みの7B モデル（PET-F2I-7B）をファインチューニングする。
外部放射性薬剤や臨床指標が NLG 指標と独立して頑健性を評価できるように評価する。

実験結果

リサーチクエスチョン

RQ1ゼロショットの汎用 LLM が PET/CT インプレッションを完全かつ事実に基づく診断として信頼性高く生成できるか。
RQ2専門医療 LLM や frontier モデルは、ドメイン適応済みでローカル展開可能なモデルと比較して PET/CT インプレッションで優位性があるか。
RQ3新しい臨床指標（ECR、UER、FCR）は従来の NLG 指標より診断の安全性と構造的整合性をより適切に捉えるか。
RQ4LoRA を用いた compact モデルのドメイン適応がクラウド展開なしで臨床的正確性とプライバシーを向上させるか。

主な発見

カテゴリ	モデル	BLEU-4	ROUGE-L	METEOR	BERTScore	SBERT	ECR	UER	FCR
Proprietary	Claude Opus 4.5 [ 1 ]	0.2532	0.3520	0.5692	0.7590	0.6433	0.5268	0.5417	0.9814
Proprietary	Claude Sonnet 4.5 [ 1 ]	0.2374	0.3587	0.5369	0.7562	0.6286	0.5222	0.5434	0.9734
Open-Source (Large)	Gemini 2.5 Pro [ 7 ]	0.2112	0.4193	0.5127	0.7643	0.6597	0.4379	0.5152	0.9618
Open-Source (Large)	Gemini 2.0 Flash [ 11 ]	0.1897	0.4792	0.4653	0.7516	0.6401	0.4153	0.4947	0.9628
Open-Source (Large)	GPT-4o [ 21 ]	0.1876	0.3248	0.4577	0.7344	0.5990	0.4346	0.5883	0.9756
Open-Source (Large)	GPT-5.1 [ 21 ]	0.1681	0.2963	0.4768	0.7327	0.5888	0.4622	0.6250	0.9898
Open-Source (Large)	DeepSeek V3.2 [ 9 ]	0.2401	0.3822	0.5296	0.7566	0.6339	0.5080	0.5704	0.9778
Open-Source (Large)	Kimi-K2 [ 29 ]	0.2190	0.3398	0.5052	0.7557	0.6152	0.4638	0.5062	0.9548
Open-Source (Large)	GLM-4.6 [ 12 ]	0.2067	0.3639	0.4872	0.7529	0.6139	0.4381	0.5329	0.9714
Open-Source (Large)	DeepSeek R1 [ 9 ]	0.1517	0.2334	0.3805	0.7003	0.5489	0.3686	0.6120	0.9024
Open-Source (Large)	Qwen3-235B [ 34 ]	0.1480	0.2827	0.4201	0.7322	0.6194	0.5612	0.6709	0.9702
Open-Source (Large)	MiniMax-M2	0.1332	0.2323	0.3588	0.6875	0.5697	0.3292	0.6681	0.8590
Open-Source (7B)	Qwen3-8B [ 34 ]	0.1552	0.3365	0.3840	0.7076	0.7457	0.3349	0.6464	0.9368
Open-Source (7B)	Qwen2.5-7B [ 24 ]	0.1495	0.3152	0.3739	0.7234	0.5854	0.3387	0.6567	0.9522
Open-Source (7B)	InternLM2.5-7B	0.1280	0.2887	0.2618	0.7029	0.5854	0.3271	0.6833	0.9452
Open-Source (7B)	Seed-Rice-7B [ 35 ]	0.1225	0.2987	0.2371	0.7010	0.6076	0.3477	0.7207	0.9727
Open-Source (7B)	Hunyuan-MT-7B [ 40 ]	0.1045	0.2603	0.2688	0.6889	0.5860	0.2487	0.6836	0.8214
Open-Source (7B)	GLM-4-9B [ 12 ]	0.0733	0.2189	0.2865	0.6929	0.6286	0.2110	0.5898	0.7178
Medical Domain	BioGPT [ 19 ]	0.1761	0.3294	0.4323	0.7348	0.6061	0.3857	0.5609	0.9470
Medical Domain	BioMedLM [ 3 ]	0.1750	0.3305	0.4295	0.7365	0.6027	0.3834	0.5578	0.9530
Medical Domain	Meditron [ 4 ]	0.1728	0.3299	0.4253	0.7364	0.6039	0.3879	0.5504	0.9482
Medical Domain	Baichuan-M3 [ 31 ]	0.1705	0.3359	0.4248	0.7359	0.6080	0.3719	0.5491	0.9400
Medical Domain	Clinical Camel [ 30 ]	0.1685	0.3227	0.4201	0.7346	0.6006	0.3631	0.5583	0.9404
Medical Domain	PMC-LLaMA [ 32 ]	0.1643	0.3310	0.4187	0.7332	0.5964	0.3653	0.5542	0.9360
Medical Domain	MedGemma-4B [ 8 ]	0.1626	0.3345	0.4133	0.7348	0.5967	0.3597	0.5481	0.9328
Medical Domain	Med-PaLM 2 [ 26 ]	0.1563	0.3222	0.4032	0.7298	0.5854	0.3544	0.5484	0.9268
Ours	PET-F2I-7B	0.7075	0.8673	0.8942	0.9103	0.9649	0.8074	0.1649	0.9420

PET-F2I-7B は標準的な NLG 指標と臨床指標の双方で最先端の性能を達成した。
PET-F2I-7B は 0.7075 BLEU-4 と 0.8673 ROUGE-L、0.8942 METEOR、0.9103 BERTScore、0.9649 SBERT を得た。
PET-F2I-7B は 0.8074 ECR と 0.1649 UER、0.9420 FCR を達成し、高い診断完結性、低い虚偽生成、強い形式整合性を示した。
ドメイン適応済みの 7B モデルは strongest baseline に対して正確なエンティティのカバレッジで 3.0×の改善を示す。
ゼロショットの frontier および医療ドメイン LLM は臨床的完結性が低く、幻覚の高リスク（低 ECR、高 UER）を示す。
PET-F2I-7B は訓練分布外の少数派放射薬剤にも頑健に一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。