Skip to main content
QUICK REVIEW

[論文レビュー] Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Hong Liu, Dong Wei|arXiv (Cornell University)|Mar 5, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

2段階のCTR Gフレームワークを導入し、構造特有の視覚クエリと構造レベルの画像-テキスト対照学習を用いてCT画像パッチを構造化レポート内容と整合させ、ソフトターゲットと多様性を強化したネガティブキューでクロスモーダル表現とレポート生成を改善します。

ABSTRACT

Computed Tomography Report Generation (CTRG) aims to automate the clinical radiology reporting process, thereby reducing the workload of report writing and facilitating patient care. While deep learning approaches have achieved remarkable advances in X-ray report generation, their effectiveness may be limited in CTRG due to larger data volumes of CT images and more intricate details required to describe them. This work introduces a novel two-stage (structure- and report-learning) framework tailored for CTRG featuring effective structure-wise image-text contrasting. In the first stage, a set of learnable structure-specific visual queries observe corresponding structures in a CT image. The resulting observation tokens are contrasted with structure-specific textual features extracted from the accompanying radiology report with a structure-wise image-text contrastive loss. In addition, text-text similarity-based soft pseudo targets are proposed to mitigate the impact of false negatives, i.e., semantically identical image structures and texts from non-paired images and reports. Thus, the model learns structure-level semantic correspondences between CT images and reports. Further, a dynamic, diversity-enhanced negative queue is proposed to guide the network in learning to discriminate various abnormalities. In the second stage, the visual structure queries are frozen and used to select the critical image patch embeddings depicting each anatomical structure, minimizing distractions from irrelevant areas while reducing memory consumption. Also, a text decoder is added and trained for report generation.Our extensive experiments on two public datasets demonstrate that our framework establishes new state-of-the-art performance for CTRG in clinical efficiency, and its components are effective.

研究の動機と目的

  • レポート生成のために高レベルの解剖学的構造知識を利用してCT画像表現を細粒度化する。
  • 構造ごとの画像-テキスト対照学習を開発し、CT構造とレポート内容を整合させる。
  • ソフト疑似ターゲットと多様性を強化したネガティブキューを介してクロスモーダル学習の偽陰性を緩和する。
  • 構造学習が後続のレポート生成ステージを導く二段階の学習フレームワークを構築する。

提案手法

  • CT-ViTを用いて画像パッチを抽出する。
  • Ns構造特異的な視覚クエリを学習して構造を観察し、クロスアテンションでS^vを得る。
  • キーワードベースの構造ラベリングを用いた事前学習済みテキストエンコーダから構造特異的なテキストトークンS^tを抽出する。
  • 動的なネガティブテキストキューを伴う構造観察駆動の画像-テキスト対照損失L_so-itcを適用する。
  • テキスト-テキストの類似性を介してソフト疑似ターゲットを導入しKL発散損失L_so-klを形成して偽陰性を緩和する。
  • 損失をL_so-preに結合し、平衡パラメータα(0.5に設定)で調整する。
  • 第2段階では視覚エンコーダ、クエリ、パッチセレクタを凍結し、S^vと選択されたT^s(構造ごとにK=10パッチ)を入力としてテキストデコーダを訓練する。
  • レポート生成にはBERTデコーダとLoRAを用いたLLaMA2-7Bで実験し、連鎖次トークン予測の objetivoで訓練する。

実験結果

リサーチクエスチョン

  • RQ1構造レベルのクロスモーダル整合は、語彙レベルよりCRTGの性能を改善するか。
  • RQ2ソフト疑似ターゲットと多様性を強化したネガティブキューはCTレポート整合の対照学習を改善するか。
  • RQ3レポート生成段階で構造情報を取り入れた視覚モジュールを凍結することはデコーディング時の性能を維持または向上させるか。
  • RQ4学習したCT表現はCTRGドメイン/データセット間でどの程度転移可能か。
  • RQ5構造ごとに選択するパッチのサブセットが性能と効率に与える影響はどの程度か。

主な発見

  • CE指標で2つの公開データセット(CT-RATEとCTRG-Chest-548K)において最先端のCTRG法を上回る。
  • L_so-itcとL_so-klを用いた構造レベルのクロスモーダル学習は、ベースラインと比較してCE指標を改善する。
  • 多様性を強化したネガティブキューとパッチ選択(構造ごとにK=10パッチ)により、効率と精度が向上し、トークン負荷を低減可能(110対4096の視覚トークン)。
  • CT-RATEで学習したCT表現をCTRG-Chest-548Kへ転移させることでCEの大幅な改善を得られ、ドメイン間の一般化を裏付ける。
  • LLaMA2-7Bの使用は慎重な訓練で高い性能を達成できるが、データ量の影響でNLG指標が一部設定でBERTに遅れを取る可能性がある。
  • 私たちの方法を用いたレポート→体積検索はCT-CLIPより改善され、より細かな構造-テキスト整合を確認できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。