[论文解读] Lung and Colon Cancer Histopathological Image Dataset (LC25000)
LC25000 是一个自由获取的数据集,包含 25,000 张彩色病理组织学图像,覆盖五个癌症相关类别,旨在支持医学影像领域的机器学习研究。
The field of Machine Learning, a subset of Artificial Intelligence, has led to remarkable advancements in many areas, including medicine. Machine Learning algorithms require large datasets to train computer models successfully. Although there are medical image datasets available, more image datasets are needed from a variety of medical entities, especially cancer pathology. Even more scarce are ML-ready image datasets. To address this need, we created an image dataset (LC25000) with 25,000 color images in 5 classes. Each class contains 5,000 images of the following histologic entities: colon adenocarcinoma, benign colonic tissue, lung adenocarcinoma, lung squamous cell carcinoma, and benign lung tissue. All images are de-identified, HIPAA compliant, validated, and freely available for download to AI researchers.
研究动机与目标
- 满足癌症病理学领域对大规模、可用于机器学习的医疗影像数据集的需求。
- 提供一个自由获取、经良好验证的图像数据集,覆盖结肠癌与肺癌的组织学。
- 确保数据去识别化并符合 HIPAA 要求,以促进 AI 研究。
- 实现病理学领域中机器学习模型的基准测试与开发。
提出的方法
- 收集了跨五个类别的 25,000 张彩色病理组织学图像(结肠腺癌、良性结肠组织、肺腺癌、肺鳞状细胞癌、良性肺组织)。
- 确保所有图像均去识别化并符合 HIPAA 要求。
- 验证数据集的研究用途质量。
- 将数据集免费提供给 AI 研究人员下载。
实验结果
研究问题
- RQ1LC25000 作为跨结肠和肺组织的病理学机器学习模型训练与基准资源的适用性如何?
- RQ2数据集的分布与类别组成是什么,验证如何支持其用于研究的可靠性?
- RQ3LC25000 是否能够在两个器官系统中实现对癌性/非癌性组织学分类的稳健机器学习模型开发?
主要发现
- 数据集包含 25,000 张图像,分成五个类别,每个类别 5,000 张。
- 图像经过去识别化并符合 HIPAA 要求。
- 图像已通过研究用途验证,且可免费下载。
- 数据集覆盖结肠和肺癌组织学类别(腺癌、鳞状细胞癌,以及良性组织)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。