[論文レビュー] VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations
VinDr-CXR は、レントゲン専門医による検証済みの付箋を備えた、18,000枚の匿名化された胸部X線画像(CXR)で構成される公開データセットであり、22の局所的病変バウンディングボックスと6つの全身的疾患ラベルを含む。このデータセットは、独自開発のDICOMラベリングプラットフォームを用いて作成され、トレーニング用(15,000枚)とテスト用(3,000枚)のセットがそれぞれ3名および5名のレントゲン専門医によって独立してラベリングされた。これにより、医療画像分野におけるAIモデルのトレーニングおよび評価に適した高品質でコンSENSUSに基づいたラベルが得られる。
Most of the existing chest X-ray datasets include labels from a list of findings without specifying their locations on the radiographs. This limits the development of machine learning algorithms for the detection and localization of chest abnormalities. In this work, we describe a dataset of more than 100,000 chest X-ray scans that were retrospectively collected from two major hospitals in Vietnam. Out of this raw data, we release 18,000 images that were manually annotated by a total of 17 experienced radiologists with 22 local labels of rectangles surrounding abnormalities and 6 global labels of suspected diseases. The released dataset is divided into a training set of 15,000 and a test set of 3,000. Each scan in the training set was independently labeled by 3 radiologists, while each scan in the test set was labeled by the consensus of 5 radiologists. We designed and built a labeling platform for DICOM images to facilitate these annotation procedures. All images are made publicly available (https://www.physionet.org/content/vindr-cxr/1.0.0/) in DICOM format along with the labels of both the training set and the test set.
研究の動機と目的
- 既存の公開CXRデータセットにおける高品質で局所的なアノテーションの不足に対処すること。
- 画像レベルおよび領域レベルの両方のアノテーションを備えた大規模で公開可能な胸部X線画像データセットを提供すること。
- 複数の専門レントゲン専門医によるコンセンサスラベリングを通じて、ラベリングバイアスを低減し、信頼性を向上させること。
- 効率的で正確な医療画像アノテーションを可能にするスケーラブルなDICOMネイティブラベリングプラットフォームの開発。
- 脱識別化され、HIPAA/GDPR準拠のデータをリリースすることで、AI駆動の医療診断分野における再現可能性の高い研究を支援すること。
提案手法
- ベトナムの大手病院2か所から得た100,000枚のCXRスキャンを後向きに収集し、そのうち18,000枚を公開用に選定。
- レントゲン専門医が全身的診断と局所的病変バウンディングボックスの両方をアノテートできる、独自開発のDICOM互換ラベリングプラットフォームの開発。
- トレーニングセットの画像は3名のレントゲン専門医が独立してアノテートし、テストセットの画像は5名のレントゲン専門医によるコンセンサスに基づいてラベリング。
- ラベリングプラットフォームに自動検証ルールを適用し、論理的不整合(例:「異常なし」を選択しながら病変をマークする)を防止。
- すべてのDICOMメタデータの手動による脱識別化とピクセルレベルのレビューにより、残留する患者識別子をすべて削除。
- PhysioNet経由でのデータセット公開。画像IDは脱識別化され、CSV形式の構造化ラベルが提供される。
実験結果
リサーチクエスチョン
- RQ1画像レベルと局所的病変アノテーションを併せ持つ大規模でオープンソースのCXRデータセットは、胸部異常の検出および局所化におけるAIモデルの性能を向上させることができるか?
- RQ2複数のレントゲン専門医によるコンセンサスラベリングは、単一アノテーターまたは自動ラベリング手法と比較して、ラベリングバイアスを低減し、アノテーションの信頼性を向上させるか?
- RQ3独自開発のDICOMネイティブラベリングプラットフォームは、スケーラブルで効率的かつ正確な医療画像アノテーションを、大規模に実現できるか?
- RQ4自動NLPベースのラベラーによるノイズ混じりまたは一貫性のないラベルは、CXR解析におけるディープラーニングモデルの一般化性能にどのような影響を及ぼすか?
- RQ5高品質なアノテーションを備えた公開可能で脱識別化されたデータセットは、医療AI分野における再現可能性の高い研究を加速できるか?
主な発見
- VinDr-CXRデータセットには18,000枚のCXRスキャンが含まれており、トレーニングセットが15,000枚、テストセットが3,000枚であり、すべてが高品質でレントゲン専門医による検証済みのラベルが付与されている。
- トレーニングセットは1枚の画像ごとに3名のレントゲン専門医が独立してアノテートしたため、堅牢性が確保され、個人のバイアスが低減された。
- テストセットは5名のレントゲン専門医によるコンセンサスに基づいてラベリングされたため、ベンチマーク評価に適した信頼性の高いラベルが得られた。
- データセットには病変局所化のための22の解剖学的領域ラベルと、6つの全身的疾患ラベルが含まれており、検出と分類の両方のタスクが可能である。
- トレーニングセットの70%以上(10,606枚)が「異常なし」とラベル付けされており、臨床現場での実際の発生頻度を反映している。
- 手動およびアルゴリズムによるチェックを用いてデータセットを脱識別化し、HIPAAおよびGDPR準拠のため、すべての患者識別情報が削除された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。