QUICK REVIEW

[论文解读] A New Cervical Cytology Dataset for Nucleus Detection and Image Classification (Cervix93) and Methods for Cervical Nucleus Detection

Hady Ahmady Phoulady, Peter R. Mouton|arXiv (Cornell University)|Nov 23, 2018

Cervical Cancer and HPV Research参考文献 8被引用 30

一句话总结

本文介绍了 Cervix93，一个新发布的公开宫颈细胞学数据集，包含 93 个来自 ThinPrep 涂片的实拍图像堆栈，分级为阴性（Negative）、低级别鳞状上皮内病变（LSIL）或高级别鳞状上皮内病变（HSIL），共包含 2,705 个手动标注的细胞核。本文提出了一种基线方法和一种基于卷积神经网络（CNN）的细胞核检测方法，两者均优于以往的最先进方法，其中 CNN 方法的 F1 分数达到 0.878，显著优于基线方法和现有方法，在更具挑战性的实拍图像数据集上表现更优。

ABSTRACT

Analyzing Pap cytology slides is an important tasks in detecting and grading precancerous and cancerous cervical cancer stages. Processing cytology images usually involve segmenting nuclei and overlapping cells. We introduce a cervical cytology dataset that can be used to evaluate nucleus detection, as well as image classification methods in the cytology image processing area. This dataset contains 93 real image stacks with their grade labels and manually annotated nuclei within images. We also present two methods: a baseline method based on a previously proposed approach, and a deep learning method, and compare their results with other state-of-the-art methods. Both the baseline method and the deep learning method outperform other state-of-the-art methods by significant margins. Along with the dataset, we publicly make the evaluation code and the baseline method available to download for further benchmarking.

研究动机与目标

为解决当前缺乏全面、真实世界数据集以评估宫颈细胞学中细胞核检测与分割的问题。
开发并基准测试一个能反映常规临床细胞学图像中变异性和复杂性的新数据集。
提出并评估一种基线方法和一种深度学习方法用于细胞核检测，其性能优于现有最先进方法。
为未来基于核形态学和立体学参数的自动化细胞学图像分类研究奠定基础。
为未来纳入细胞质和细胞核边界标注以支持完整细胞分割评估奠定基础。

提出的方法

该数据集由 93 个来自 ThinPrep 巴氏染色涂片的真实扩展景深（EDF）图像组成，通过使用软硬件结合的显微镜系统，采用系统-随机方法采集。
每个图像堆栈包含 10–20 幅 40 倍放大倍率的图像帧，经由 EDF 重建处理生成每张涂片的一幅合焦图像。
细胞核由一名细胞技师手动标注，标注点位于每个细胞核的中心，确保至少一半的细胞核位于图像范围内，且中心点距离边界至少 10 像素。
创建了训练/测试划分，将每类分级（N、LSIL、HSIL）约 25% 的图像帧分配至测试集，并将标签存储在 CSV 文件中。
实现并评估了一种基于先前发表方法的基线方法，采用基于形态学和强度的特征进行细胞核检测。
在该数据集上训练并测试了一个卷积神经网络（CNN），使用相同的训练和测试划分，性能通过精确率、召回率和 F1 分数进行评估。

实验结果

研究问题

RQ1现有细胞核检测方法在真实世界、高度多变的宫颈细胞学数据集上的性能如何？
RQ2一个包含更多真实图像变异性和更多标注细胞核的新数据集，是否能提升细胞核检测算法的基准测试水平？
RQ3在该新数据集上，深度学习方法在多大程度上优于传统手工设计特征的方法？
RQ4在真实细胞学图像中，不同巴氏涂片分级（阴性、LSIL、HSIL）下，细胞核检测方法的精确率和召回率如何变化？
RQ5图像变异性和重叠细胞核对细胞核检测模型性能有何影响？

主要发现

所提出的 CNN 方法取得了 0.878 的 F1 分数，显著优于基线方法（F1 = 0.820）和所有其他评估的最先进方法。
基线方法实现了 0.803 的精确率和 0.838 的召回率，优于 ISBI 2014 和 2015 挑战赛中 Lu 等人及 Ushizima 等人报告的方法。
Phoulady 等人 [13] 的方法取得了 0.734 的 F1 分数，低于基线方法和 CNN，表明其在该更复杂数据集上的泛化能力较差。
CNN 模型约有 10% 的细胞核被漏检，主要原因为细胞核重叠或靠近图像边界，表明通过先进后处理方法仍有改进空间。
该数据集相较于以往的 ISBI 数据集更具挑战性，表现为先前最先进方法在该真实图像、高变异性的数据集上性能明显下降。
结果表明，真实图像的变异性和临床样本中复杂的核形态学比早期基准测试中使用的合成或低变异性的数据集更具挑战性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。