[論文レビュー] PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation
本論文は PET-F2I-41K 大規模 PET/CT インプレッションベンチマークと、LoRA で微調整されたドメイン適応 7B モデル PET-F2I-7B を提案し、27 のベースラインより臨床的正確性とプライバシー保護を実現したローカル実行を達成する。
PET/CT imaging is pivotal in oncology and nuclear medicine, yet summarizing complex findings into precise diagnostic impressions is labor-intensive. While LLMs have shown promise in medical text generation, their capability in the highly specialized domain of PET/CT remains underexplored. We introduce PET-F2I-41K (PET Findings-to-Impression Benchmark), a large-scale benchmark for PET/CT impression generation using LLMs, constructed from over 41k real-world reports. Using PET-F2I-41K, we conduct a comprehensive evaluation of 27 models across proprietary frontier LLMs, open-source generalist models, and medical-domain LLMs, and we develop a domain-adapted 7B model (PET-F2I-7B) fine-tuned from Qwen2.5-7B-Instruct via LoRA. Beyond standard NLG metrics (e.g., BLEU-4, ROUGE-L, BERTScore), we propose three clinically grounded metrics - Entity Coverage Rate (ECR), Uncovered Entity Rate (UER), and Factual Consistency Rate (FCR) - to assess diagnostic completeness and factual reliability. Experiments reveal that neither frontier nor medical-domain LLMs perform adequately in zero-shot settings. In contrast, PET-F2I-7B achieves substantial gains (e.g., 0.708 BLEU-4) and a 3.0x improvement in entity coverage over the strongest baseline, while offering advantages in cost, latency, and privacy. Beyond this modeling contribution, PET-F2I-41K establishes a standardized evaluation framework to accelerate the development of reliable and clinically deployable reporting systems for PET/CT.
研究の動機と目的
- PET/CT レポートインプレッションの臨床的厳密評価の欠如に対処する。
- 臨床 grounded 指標を備えた大規模な PET/CT インプレッションベンチマーク(PET-F2I-41K)を作成する。
- 正確でプライベートな PET/CT レポーティングのためのドメイン適応・パラメータ効率の高いモデル(PET-F2I-7B)を開発する。
- 信頼性の高い臨床導入を促進する標準化評価フレームワークを提供する。)
提案手法
- 41,191 件の実世界の PET/CT レポート(2013–2023)から PET-F2I-41K を構築し、厳格な学習/検証/テスト分割を適用する。
- 標準的な NLG 指標と提案された臨床指標に対して frontier、オープンソース、医療ドメインの LLM を用い 27 モデルをベンチマークする。
- 3 つの臨床指標を定義する:Entity Coverage Rate(ECR)、Uncovered Entity Rate(UER)、Factual Consistency Rate(FCR)を医療語彙に対する貪欲な最長一致 NER で用いる。
- プライバシー保護のローカル推論のために LoRA(r=64, α=128)を用いて Qwen2.5-7B-Instruct からドメイン適応済みの7B モデル(PET-F2I-7B)をファインチューニングする。
- 外部放射性薬剤や臨床指標が NLG 指標と独立して頑健性を評価できるように評価する。
実験結果
リサーチクエスチョン
- RQ1ゼロショットの汎用 LLM が PET/CT インプレッションを完全かつ事実に基づく診断として信頼性高く生成できるか。
- RQ2専門医療 LLM や frontier モデルは、ドメイン適応済みでローカル展開可能なモデルと比較して PET/CT インプレッションで優位性があるか。
- RQ3新しい臨床指標(ECR、UER、FCR)は従来の NLG 指標より診断の安全性と構造的整合性をより適切に捉えるか。
- RQ4LoRA を用いた compact モデルのドメイン適応がクラウド展開なしで臨床的正確性とプライバシーを向上させるか。
主な発見
| カテゴリ | モデル | BLEU-4 | ROUGE-L | METEOR | BERTScore | SBERT | ECR | UER | FCR |
|---|---|---|---|---|---|---|---|---|---|
| Proprietary | Claude Opus 4.5 [ 1 ] | 0.2532 | 0.3520 | 0.5692 | 0.7590 | 0.6433 | 0.5268 | 0.5417 | 0.9814 |
| Proprietary | Claude Sonnet 4.5 [ 1 ] | 0.2374 | 0.3587 | 0.5369 | 0.7562 | 0.6286 | 0.5222 | 0.5434 | 0.9734 |
| Open-Source (Large) | Gemini 2.5 Pro [ 7 ] | 0.2112 | 0.4193 | 0.5127 | 0.7643 | 0.6597 | 0.4379 | 0.5152 | 0.9618 |
| Open-Source (Large) | Gemini 2.0 Flash [ 11 ] | 0.1897 | 0.4792 | 0.4653 | 0.7516 | 0.6401 | 0.4153 | 0.4947 | 0.9628 |
| Open-Source (Large) | GPT-4o [ 21 ] | 0.1876 | 0.3248 | 0.4577 | 0.7344 | 0.5990 | 0.4346 | 0.5883 | 0.9756 |
| Open-Source (Large) | GPT-5.1 [ 21 ] | 0.1681 | 0.2963 | 0.4768 | 0.7327 | 0.5888 | 0.4622 | 0.6250 | 0.9898 |
| Open-Source (Large) | DeepSeek V3.2 [ 9 ] | 0.2401 | 0.3822 | 0.5296 | 0.7566 | 0.6339 | 0.5080 | 0.5704 | 0.9778 |
| Open-Source (Large) | Kimi-K2 [ 29 ] | 0.2190 | 0.3398 | 0.5052 | 0.7557 | 0.6152 | 0.4638 | 0.5062 | 0.9548 |
| Open-Source (Large) | GLM-4.6 [ 12 ] | 0.2067 | 0.3639 | 0.4872 | 0.7529 | 0.6139 | 0.4381 | 0.5329 | 0.9714 |
| Open-Source (Large) | DeepSeek R1 [ 9 ] | 0.1517 | 0.2334 | 0.3805 | 0.7003 | 0.5489 | 0.3686 | 0.6120 | 0.9024 |
| Open-Source (Large) | Qwen3-235B [ 34 ] | 0.1480 | 0.2827 | 0.4201 | 0.7322 | 0.6194 | 0.5612 | 0.6709 | 0.9702 |
| Open-Source (Large) | MiniMax-M2 | 0.1332 | 0.2323 | 0.3588 | 0.6875 | 0.5697 | 0.3292 | 0.6681 | 0.8590 |
| Open-Source (7B) | Qwen3-8B [ 34 ] | 0.1552 | 0.3365 | 0.3840 | 0.7076 | 0.7457 | 0.3349 | 0.6464 | 0.9368 |
| Open-Source (7B) | Qwen2.5-7B [ 24 ] | 0.1495 | 0.3152 | 0.3739 | 0.7234 | 0.5854 | 0.3387 | 0.6567 | 0.9522 |
| Open-Source (7B) | InternLM2.5-7B | 0.1280 | 0.2887 | 0.2618 | 0.7029 | 0.5854 | 0.3271 | 0.6833 | 0.9452 |
| Open-Source (7B) | Seed-Rice-7B [ 35 ] | 0.1225 | 0.2987 | 0.2371 | 0.7010 | 0.6076 | 0.3477 | 0.7207 | 0.9727 |
| Open-Source (7B) | Hunyuan-MT-7B [ 40 ] | 0.1045 | 0.2603 | 0.2688 | 0.6889 | 0.5860 | 0.2487 | 0.6836 | 0.8214 |
| Open-Source (7B) | GLM-4-9B [ 12 ] | 0.0733 | 0.2189 | 0.2865 | 0.6929 | 0.6286 | 0.2110 | 0.5898 | 0.7178 |
| Medical Domain | BioGPT [ 19 ] | 0.1761 | 0.3294 | 0.4323 | 0.7348 | 0.6061 | 0.3857 | 0.5609 | 0.9470 |
| Medical Domain | BioMedLM [ 3 ] | 0.1750 | 0.3305 | 0.4295 | 0.7365 | 0.6027 | 0.3834 | 0.5578 | 0.9530 |
| Medical Domain | Meditron [ 4 ] | 0.1728 | 0.3299 | 0.4253 | 0.7364 | 0.6039 | 0.3879 | 0.5504 | 0.9482 |
| Medical Domain | Baichuan-M3 [ 31 ] | 0.1705 | 0.3359 | 0.4248 | 0.7359 | 0.6080 | 0.3719 | 0.5491 | 0.9400 |
| Medical Domain | Clinical Camel [ 30 ] | 0.1685 | 0.3227 | 0.4201 | 0.7346 | 0.6006 | 0.3631 | 0.5583 | 0.9404 |
| Medical Domain | PMC-LLaMA [ 32 ] | 0.1643 | 0.3310 | 0.4187 | 0.7332 | 0.5964 | 0.3653 | 0.5542 | 0.9360 |
| Medical Domain | MedGemma-4B [ 8 ] | 0.1626 | 0.3345 | 0.4133 | 0.7348 | 0.5967 | 0.3597 | 0.5481 | 0.9328 |
| Medical Domain | Med-PaLM 2 [ 26 ] | 0.1563 | 0.3222 | 0.4032 | 0.7298 | 0.5854 | 0.3544 | 0.5484 | 0.9268 |
| Ours | PET-F2I-7B | 0.7075 | 0.8673 | 0.8942 | 0.9103 | 0.9649 | 0.8074 | 0.1649 | 0.9420 |
- PET-F2I-7B は標準的な NLG 指標と臨床指標の双方で最先端の性能を達成した。
- PET-F2I-7B は 0.7075 BLEU-4 と 0.8673 ROUGE-L、0.8942 METEOR、0.9103 BERTScore、0.9649 SBERT を得た。
- PET-F2I-7B は 0.8074 ECR と 0.1649 UER、0.9420 FCR を達成し、高い診断完結性、低い虚偽生成、強い形式整合性を示した。
- ドメイン適応済みの 7B モデルは strongest baseline に対して正確なエンティティのカバレッジで 3.0×の改善を示す。
- ゼロショットの frontier および医療ドメイン LLM は臨床的完結性が低く、幻覚の高リスク(低 ECR、高 UER)を示す。
- PET-F2I-7B は訓練分布外の少数派放射薬剤にも頑健に一般化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。