[論文レビュー] Dia-LLaMA: Towards Large Language Model-driven CT Report Generation
Dia-LLaMA は CT レポート生成のために LLaMA2-7B を病変認識アテンションモジュール、病変プロトタイプメモリーバンク、診断テキストプロンプトを用いて適応させ、CTRG-Chest-548K で最先端の結果を達成します。
Medical report generation has achieved remarkable advancements yet has still been faced with several challenges. First, the inherent imbalance in the distribution of normal and abnormal cases may lead models to exhibit a biased focus on normal samples, resulting in unreliable diagnoses. Second, the frequent occurrence of common template sentences in the reports may overwhelm the critical abnormal information. Moreover, existing works focus on 2D chest X-rays, leaving CT report generation underexplored due to the high-dimensional nature of CT images and the limited availability of CT-report pairs. Recently, LLM has shown a great ability to generate reliable answers with appropriate prompts, which shed light on addressing the aforementioned challenges. In this paper, we propose Dia-LLaMA, a framework to adapt the LLaMA2-7B for CT report generation by incorporating diagnostic information as guidance prompts. Considering the high dimension of CT, we leverage a pre-trained ViT3D with perceiver to extract the visual information. To tailor the LLM for report generation and emphasize abnormality, we extract additional diagnostic information by referring to a disease prototype memory bank, which is updated during training to capture common disease representations. Furthermore, we introduce disease-aware attention to enable the model to adjust attention for different diseases. Experiments on the chest CT dataset demonstrated that our proposed method outperformed previous methods and achieved state-of-the-art on both clinical efficacy performance and natural language generation metrics. The code will be made publically available.
研究の動機と目的
- CT レポート生成における一般的な正常ケースの偏った認識とまれな異常の偏りを是正する。
- 診断情報に guided された coherent な CT レポートを大規模言語モデルで生成する。
- 高次元 CT データと病気表現のデータ不均衡を扱うメカニズムを導入する。
提案手法
- 画像CT 埋め込みと LLM プロンプトを二段階プロンプトセット(視覚トークンと診断トークン)で結合する。
- Vision encoder (ViT3D with Perceiver) を使いパッチ特徴を抽出し LLM 空間に投影する。
- 病気認識アテンションを導入してパッチ特徴から病気レベルの特徴を得る。
- 学習可能な病変プロトタイプメモリーバンク(正常・異常プロトタイプ)を、コントラスト損失(InfoNCE)によって更新する。
- 診断結果をテキストプロンプトに変換する(The {disease} is [state])LLM デコードを誘導する。
- 病変プロトタイプ損失と言語モデリング損失の加重和で訓練する(L = L_DP + lambda * L_LM)。
実験結果
リサーチクエスチョン
- RQ1病変認識アテンションはLLM駆動のレポート生成において異常と正常の識別を改善できるか?
- RQ2病変プロトタイプメモリーバンクは CTRG での希少異常のデータ不均衡を軽減するのに役立つか?
- RQ3診断テキストプロンプトは LLM を臨床的に正確な CT レポートへ効果的に導くか?
主な発見
| 手法 | 年 | CE 予測 | CE 再現 | CE F1 | BLEU-1 | BLEU-4 | METEOR | ROUGE-L |
|---|---|---|---|---|---|---|---|---|
| Ours | - | 0.421 | 0.387 | 0.372 | 51.16 | 29.64 | 26.28 | 42.15 |
| R2Gen | 2020 | 0.207 | 0.121 | 0.144 | 34.11 | 23.39 | 21.40 | 47.75 |
| R2GenCMN | 2022 | 0.158 | 0.100 | 0.114 | 35.88 | 23.37 | 21.43 | 45.94 |
| M2KT | 2023 | 0.220 | 0.119 | 0.145 | 46.09 | 21.93 | 25.20 | 36.47 |
| PromptMRG | 2023 | 0.290 | 0.330 | 0.290 | 47.73 | 23.02 | 22.87 | 37.35 |
| SL-DG | 2024 | - | - | - | - | - | - | 43.80 |
| RadFM | 2023 | 0.403 | 0.361 | 0.345 | 46.70 | 24.70 | 24.01 | 38.98 |
- 臨床有効性 CE および複数の自然言語生成 NLG 指標で CTRG-Chest-548K の最先端性能を達成。
- CE: F1 は 0.372 へ改善、RadFM を 7.8% 上回る(同一行の 0.421 prec., 0.387 rec., 0.372 f1)。
- NLG: BLEU-1, BLEU-4, METEOR 指標でベースラインを上回る;ROUGE-L は一部設定でテンプレート文生成の傾向により遅れ。
- アブレーションでは DPM、DAA、または DTP を除去すると性能が劣化し、完全モデルがほとんどの指標で最も強い結果。
- テキストベースの診断プロンプトは None, Token, または Feature プロンプトより多くの設定で優れており、言語ベースのガイダンスの有効性を強調。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。