Skip to main content
QUICK REVIEW

[論文レビュー] Lung and Colon Cancer Histopathological Image Dataset (LC25000)

Andrew Borkowski, Marilyn M. Bui|arXiv (Cornell University)|Dec 16, 2019
Radiomics and Machine Learning in Medical Imaging参考文献 8被引用数 255
ひとこと要約

tldr: LC25000 は、医用画像分野の機械学習研究を支援するために設計された、5つの癌関連クラスにまたがる25,000枚のカラー組織病理画像の自由に入手できるデータセットである。

ABSTRACT

The field of Machine Learning, a subset of Artificial Intelligence, has led to remarkable advancements in many areas, including medicine. Machine Learning algorithms require large datasets to train computer models successfully. Although there are medical image datasets available, more image datasets are needed from a variety of medical entities, especially cancer pathology. Even more scarce are ML-ready image datasets. To address this need, we created an image dataset (LC25000) with 25,000 color images in 5 classes. Each class contains 5,000 images of the following histologic entities: colon adenocarcinoma, benign colonic tissue, lung adenocarcinoma, lung squamous cell carcinoma, and benign lung tissue. All images are de-identified, HIPAA compliant, validated, and freely available for download to AI researchers.

研究の動機と目的

  • 癌病理学における大規模でML対応の医用画像データセットのニーズに対処する。
  • 結腸癌と肺癌の組織学を網羅する、自由に利用できる、検証済みの画像データセットを提供する。
  • AI研究を促進するためにデータが特定されていない状態でHIPAA準拠であることを保証する。
  • 病理組織学における機械学習モデルのベンチマーキングと開発を可能にする。

提案手法

  • 5つのクラス(結腸腺癌、良性結腸組織、肺腺癌、肺扁平上皮癌、良性肺組織)に及ぶ25,000枚のカラー組織病理画像を収集した。
  • すべての画像の特定不能化とHIPAA準拠を保証した。
  • 研究用途のためのデータセット品質を検証した。
  • データセットをAI研究者向けに自由にダウンロードできるようにした。

実験結果

リサーチクエスチョン

  • RQ1結腸組織と肺組織にまたがる病理組織学のMLモデルの訓練およびベンチマーキング資源としてLC25000はどれだけ適しているか?
  • RQ2データセットの分布とクラス構成はどうなっており、検証は研究利用の信頼性をどのように支えているか?
  • RQ3LC25000は二つの臓器系にまたがる癌/非癌組織病理分類の堅牢なMLモデル開発を可能にするか?

主な発見

  • データセットには5つのクラスに分かれ、それぞれ5,000枚の画像が含まれており、全体で25,000枚である。
  • 画像は特定されていない状態でHIPAA準拠である。
  • 画像は研究利用のために検証され、自由にダウンロードできる。
  • データセットは結腸および肺の癌組織病理カテゴリ(腺癌、扁平上皮癌、及び良性組織)をカバーしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。