[논문 리뷰] Lung and Colon Cancer Histopathological Image Dataset (LC25000)
LC25000은 다섯 가지 암 관련 클래스로 이루어진 25,000장의 색상 병리학적 이미지를 자유롭게 이용할 수 있는 데이터세트로, 의학 영상에서의 머신러닝 연구를 지원하도록 설계되었습니다.
The field of Machine Learning, a subset of Artificial Intelligence, has led to remarkable advancements in many areas, including medicine. Machine Learning algorithms require large datasets to train computer models successfully. Although there are medical image datasets available, more image datasets are needed from a variety of medical entities, especially cancer pathology. Even more scarce are ML-ready image datasets. To address this need, we created an image dataset (LC25000) with 25,000 color images in 5 classes. Each class contains 5,000 images of the following histologic entities: colon adenocarcinoma, benign colonic tissue, lung adenocarcinoma, lung squamous cell carcinoma, and benign lung tissue. All images are de-identified, HIPAA compliant, validated, and freely available for download to AI researchers.
연구 동기 및 목표
- 암 병리학에서 대규모의 ML 준비된 의료 영상 데이터 세트 수요를 해결한다.
- 대장 및 폐 암 조직학에 걸친 자유롭게 이용 가능하고 잘 검증된 영상 데이터 세트를 제공한다.
- AI 연구를 촉진하기 위해 데이터가 비식별화되고 HIPAA를 준수하도록 보장한다.
- 병리학에서 머신러닝 모델의 벤치마킹 및 개발을 가능하게 한다.
제안 방법
- 다섯 가지 클래스(대장 선암종, 양성 대장 조직, 폐 선암종, 폐 편평세포암, 양성 폐 조직)에 걸쳐 25,000장의 색상 병리학 이미지를 수집했다.
- 모든 이미지에 대해 비식별화 및 HIPAA 준수를 보장했다.
- 연구용으로 데이터셋의 품질을 검증했다.
- AI 연구자들이 자유롭게 다운로드 받을 수 있도록 데이터셋을 제공했다.
실험 결과
연구 질문
- RQ1LC25000은 대장 및 폐 조직의 병리학에서 ML 모델의 학습 및 벤치마킹 자원으로 얼마나 적합한가?
- RQ2데이터셋의 분포와 클래스 구성은 어떠하며, 검증이 연구 사용의 신뢰성에 어떻게 기여하는가?
- RQ3두 개의 기관 시스템에 걸친 암/비암 병리학 분류를 위한 강건한 ML 모델 개발을 LC25000이 가능하게 할 수 있는가?
주요 결과
- 데이터셋은 다섯 개의 클래스로 나뉜 25,000장의 이미지를 포함하며, 클래스당 5,000장의 이미지가 있다.
- 이미지는 비식별화되어 있으며 HIPAA를 준수한다.
- 이미지는 연구용으로 검증되었고 자유롭게 다운로드 가능하다.
- 데이터셋은 대장 및 폐 암 병리학 범주(선암종, 편평세포암, 그리고 양성 조직)를 모두 포함한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.