QUICK REVIEW

[論文レビュー] MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs

Alistair E. W. Johnson, Tom Pollard|arXiv (Cornell University)|Jan 21, 2019

COVID-19 diagnosis using AI被引用数 256

ひとこと要約

本論文は MIMIC-CXR-JPG v2.0.0 を提示します。377,110 件のJPEG胸部X線画像と radiology reports から導出された14の病理ラベルを含む、非特定化された大規模コレクションを、医療用コンピュータビジョンタスクのベンチマークに向けて公開します。

ABSTRACT

Chest radiography is an extremely powerful imaging modality, allowing for a detailed inspection of a patient's thorax, but requiring specialized training for proper interpretation. With the advent of high performance general purpose computer vision algorithms, the accurate automated analysis of chest radiographs is becoming increasingly of interest to researchers. However, a key challenge in the development of these techniques is the lack of sufficient data. Here we describe MIMIC-CXR-JPG v2.0.0, a large dataset of 377,110 chest x-rays associated with 227,827 imaging studies sourced from the Beth Israel Deaconess Medical Center between 2011 - 2016. Images are provided with 14 labels derived from two natural language processing tools applied to the corresponding free-text radiology reports. MIMIC-CXR-JPG is derived entirely from the MIMIC-CXR database, and aims to provide a convenient processed version of MIMIC-CXR, as well as to provide a standard reference for data splits and image labels. All images have been de-identified to protect patient privacy. The dataset is made freely available to facilitate and encourage a wide range of research in medical computer vision.

研究の動機と目的

胸部X線のコンピュータビジョン研究を促進するため、処理済みの JPEG 形式のサブセットを提供する。
標準化されたデータ分割とラベルを提供し、研究間で公平なベンチマークを可能にする。
個人識別情報を除去しHIPAAの安全性を確保しつつ、臨床的に関連する画像内容を保持する。

提案手法

MIMIC-CXR から DICOM 画像を抽出し、12ビットから8ビット深度の正規化を行って JPEG に変換する。
コントラストを改善するためヒストグラム均等化と向きの正規化を適用する。
自動テキスト注釈検出と手動レビューによってPHIを非識別化する。
放射線報告からのラベル生成には、2つのオープンソースラベラー（NegBio と CheXpert）を使用する。
CXR画像と研究数を含む訓練・検証・テスト分割を提供し、検証セットを公開する。

実験結果

リサーチクエスチョン

RQ1大規模でラベル付きのJPEG胸部X線データセットは、放射線学におけるコンピュータビジョン手法の堅牢なベンチマークを促進できるか。
RQ2標準化された分割とラベリング手法は、モデルや研究間で再現可能な評価を可能にするか。
RQ3自動ラベラー（NegBio、CheXpert）は、このデータセットで手動の放射線科医ラベリングと比してどの程度の性能を示すか。
RQ4非識別化と画像前処理が研究のためのデータセットの使いやすさに与える影響は。

主な発見

データセットには 2011–2016 年に BIDMC で収集された 227,827 件の imaging studies からの 377,110 枚の胸部X線が含まれる。
画像は非識別化され、標準化された前処理と radiology reports から派生した 14 のラベルで JPEG に変換されている。
ラベルは NegBio と CheXpert を用いて生成され、ラベルの衝突を扱う Disagreement カテゴリが含まれている。
訓練、検証、テスト分割が提供されており、テストセットは評価の整合性を保つため公開時には非公開とされている。
687 件の手動ラベル付きレポートを対象とした検証研究では、ラベラーとタスク間で性能がばらつくことが示され、 Pneumonia、Atelectasis、Pleural Effusion などの特定のラベルは高い F1 スコアを達成する一方で、他は低い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。