Skip to main content
QUICK REVIEW

[論文レビュー] RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis

Xiaoman Zhang, Chaoyi Wu|arXiv (Cornell University)|Apr 25, 2024
Lung Cancer Diagnosis and Treatment被引用数 5
ひとこと要約

RadGenome-Chest CTは、CT-RATE に基づく大規模で地域ベースの胸部CTデータセットであり、197 の臓器レベルのセグメンテーションマスク、665k の多粒度のグラウンデッドレポート、そして 1.3M のグラウンデッド VQA ペアを提供し、領域ベースのテキスト生成と多モーダル医療基盤モデルを可能にします。

ABSTRACT

Developing generalist foundation model has recently attracted tremendous attention among researchers in the field of AI for Medicine (AI4Medicine). A pivotal insight in developing these models is their reliance on dataset scaling, which emphasizes the requirements on developing open-source medical image datasets that incorporate diverse supervision signals across various imaging modalities. In this paper, we introduce RadGenome-Chest CT, a comprehensive, large-scale, region-guided 3D chest CT interpretation dataset based on CT-RATE. Specifically, we leverage the latest powerful universal segmentation and large language models, to extend the original datasets (over 25,692 non-contrast 3D chest CT volume and reports from 20,000 patients) from the following aspects: (i) organ-level segmentation masks covering 197 categories, which provide intermediate reasoning visual clues for interpretation; (ii) 665 K multi-granularity grounded reports, where each sentence of the report is linked to the corresponding anatomical region of CT volume in the form of a segmentation mask; (iii) 1.3 M grounded VQA pairs, where questions and answers are all linked with reference segmentation masks, enabling models to associate visual evidence with textual explanations. All grounded reports and VQA pairs in the validation set have gone through manual verification to ensure dataset quality. We believe that RadGenome-Chest CT can significantly advance the development of multimodal medical foundation models, by training to generate texts based on given segmentation regions, which is unattainable with previous relevant datasets. We will release all segmentation masks, grounded reports, and VQA pairs to facilitate further research and development in this field.

研究の動機と目的

  • 胸部 CT 分析のために領域ごとの監視を拡大した公開データセットを用いて、一般目的医療AIの開発を推進する。
  • CT 画像診断におけるグラウンデッドレポート生成とグラウンデッド VQA を可能にする地域ガイド付きデータセットを作成する。
  • 解釈可能な多モーダルモデルを放射線科領域で促進するための資源(セグメンテーションマスク、グラウンデッドレポート、VQA ペア)を提供する。

提案手法

  • SATを用いた臓器セグメンテーション(197領域)の3D胸部CT領域グラウンディングでCT-RATEを拡張する。
  • 放射線診断レポートを解剖学的に対応する文へ解析するためにGPT-4と社内NER/QAパイプラインを用い、文とセグメンテーションマスクを紐づける。
  • 所見と所見の結論をセグメンテーション領域に結びつけたQAテンプレートへ変換することで領域グラウンデッドVQAデータを生成する。
  • グラウンデッドレポートとVQAコンポーネントの手動検証を通じてグラウンディング品質を検証する。

実験結果

リサーチクエスチョン

  • RQ1領域レベルのグラウンディングを大規模な胸部CTデータセットにどのように付加して、グラウンデッドなマルチモーダルタスクを支えることができるか?
  • RQ2CT-RATE から達成可能なセグメンテーション、領域グラウンデッドレポート、および VQA ペアの規模と品質はどの程度か?
  • RQ3領域からテキストへの関連付けは、放射線科における解釈可能なマルチモーダル医療基盤モデルを改善できるか?

主な発見

  • データセットは、20,000人の患者からの25,692件の非造影3D胸部CT体積とレポートで構成される。
  • 胸部CT領域のための197の臓器レベルのセグメンテーションマスクが作成された。
  • 各文をセグメンテーション領域にリンクする665K件の多粒度グラウンデッドレポートが生成された。
  • 1.3MのグラウンデッドVQAペア(領域レベルおよびケースレベル)を作成し、検証セットで手動検証を実施した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。