[論文レビュー] BIMCV COVID-19+: a large annotated dataset of RX and CT images from COVID-19 patients
大規模なオープン BIMCV-COVID-19+ データセットで、胸部X線、DX、CT画像が1,311人のCOVID-19+患者から、放射線所見の注釈、ROIセグメンテーション、およびUMLS CUIsへのマッピング、さらに自動レポートラベリングパイプラインを含む。
This paper describes BIMCV COVID-19+, a large dataset from the Valencian Region Medical ImageBank (BIMCV) containing chest X-ray images CXR (CR, DX) and computed tomography (CT) imaging of COVID-19+ patients along with their radiological findings and locations, pathologies, radiological reports (in Spanish), DICOM metadata, Polymerase chain reaction (PCR), Immunoglobulin G (IgG) and Immunoglobulin M (IgM) diagnostic antibody tests. The findings have been mapped onto standard Unified Medical Language System (UMLS) terminology and cover a wide spectrum of thoracic entities, unlike the considerably more reduced number of entities annotated in previous datasets. Images are stored in high resolution and entities are localized with anatomical labels and stored in a Medical Imaging Data Structure (MIDS) format. In addition, 10 images were annotated by a team of radiologists to include semantic segmentation of radiological findings. This first iteration of the database includes 1,380 CX, 885 DX and 163 CT studies from 1,311 COVID-19+ patients. This is, to the best of our knowledge, the largest COVID-19+ dataset of images available in an open format. The dataset can be downloaded from http://bimcv.cipf.es/bimcv-projects/bimcv-covid19.
研究の動機と目的
- 診断・予後・トリアージを支援するためのAI研究用の大規模なオープンな多機関COVID-19画像データセットを提供する。
- 放射線所見を標準的統一医療語彙系(UMLS)CUIsにマッピングして、言語を超えた相互運用可能なラベリングを実現する。
- 放射線所見と局在を注釈付けし、ROIセグメンテーションを含む監視学習(セグメンテーションを含む)をサポートする。
- 研究コミュニティがオープンデータ共有を可能にしつつ、堅牢なデータ匿名化と倫理的遵守を確保する。
提案手法
- バレンシア地域の11病院から胸部X線(CR/DX)およびCT画像を集約する。
- レポートとDICOMヘッダの患者データをDPOおよびHIPAA類似の保護措置に従って匿名化し、レポートの特定除去にはNERを使用し、DICOM機密プロフィールを適用する。
- COVID-19およびCOVID-19不確定語を含むように注意機構を持つPadChestベースのマルチラベルLSTMを再学習させ、ラベルをUMLS CUIsにマッピングしてレポートに放射線ラベルを自動付与する。
- 放射線科医がXNAT OHIF Viewerを用いて10枚の画像のROI/グラウンドトゥルース領域を注釈付けし、意味分割(UNet風)トレーニングを可能にする。
- 生データのピクセルを16-bit PNG/nii.gz形式に変換し、EfficientNetベースのネットワークで画像投影/向きを推定してビューを標準化する。
- Medical Imaging Data Structure (MIDS)でデータを構造化し、画像(nii.gz)、DICOMフィールド(JSON)、および患者由来データをTSV/JSONメタデータファイルを介して統合する。
実験結果
リサーチクエスチョン
- RQ1スペイン語の放射線報告からの放射線所見を、言語を超えた相互運用可能なラベリングを実現するために、UMLS CUIsへどの程度効果的にマッピングできるか。
- RQ2COVID-19画像の病変セグメンテーションおよび検出モデルの訓練におけるROI注釈と意味ラベルの有用性は?
- RQ3大規模なオープンデータセットにおける自動化されたCOVID-19関連ラベル(COVID-19 vs COVID-19 uncertain)の品質と信頼性はどの程度か。
- RQ4AI研究のための診断時点に対する、モダリティ、デバイス、時系列でのBIMCV-COVID-19+データの多様性と代表性はどの程度か。
主な発見
- 初回のイテレーションには1,380件のCX、885件のDX、163件のCT研究が1,311人の患者から含まれており、公開時点で最大級のオープンCOVID-19画像データセットの1つとなっている。
- 主要な所見(肺胞浸潤影、滲出影など)のピクセルレベルROIを含む10枚の画像を注釈付けして、セグメンテーションモデルの訓練を可能にした。
- 放射線ラベルはUMLS下の336 CUIsにマッピングされ、COVID-19(CUI C5203670)およびCOVID-19 uncertain(CUI C5203671)の語彙が追加され、COVID-19ラベリングに特化した。
- 自動化されたマルチラベルレポート分類器(注意機構付き双方向LSTM)は、COVID-19用語を含むラベルセットで検証時のF1-microが0.922、独立したテストセットでの精度が0.8281を達成。
- COVID-19関連所見では、精度0.961、再現率0.925、F1 0.943を達成。COVID-19 uncertainでは、精度1.0、再現率0.846、F1 0.916。
- より広いエンティティセットに対する総合的なラベルセット性能はF1重み付き0.9320、F1マイクロ0.9378、精度0.8281を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。