[论文解读] A CNN-based methodology for breast cancer diagnosis using thermal images
本研究提出一种基于CNN的计算机辅助诊断系统,用于通过热成像进行乳腺癌诊断,表明数据增强和优化的超参数显著提升了性能。该方法在57例患者的数据库上实现了92%的准确率和92%的F1分数,优于ResNet50和Inception等最先进模型,且数据增强将所需数据库规模减少了50%即可达到同等性能。
Micro Abstract: A recent study from GLOBOCAN disclosed that during 2018 two million women worldwide had been diagnosed from breast cancer. This study presents a computer-aided diagnosis system based on convolutional neural networks as an alternative diagnosis methodology for breast cancer diagnosis with thermal images. Experimental results showed that lower false-positives and false-negatives classification rates are obtained when data pre-processing and data augmentation techniques are implemented in these thermal images. Background: There are many types of breast cancer screening techniques such as, mammography, magnetic resonance imaging, ultrasound and blood sample tests, which require either, expensive devices or personal qualified. Currently, some countries still lack access to these main screening techniques due to economic, social or cultural issues. The objective of this study is to demonstrate that computer-aided diagnosis(CAD) systems based on convolutional neural networks (CNN) are faster, reliable and robust than other techniques. Methods: We performed a study of the influence of data pre-processing, data augmentation and database size versus a proposed set of CNN models. Furthermore, we developed a CNN hyper-parameters fine-tuning optimization algorithm using a tree parzen estimator. Results: Among the 57 patients database, our CNN models obtained a higher accuracy (92\%) and F1-score (92\%) that outperforms several state-of-the-art architectures such as ResNet50, SeResNet50 and Inception. Also, we demonstrated that a CNN model that implements data-augmentation techniques reach identical performance metrics in comparison with a CNN that uses a database up to 50\% bigger. Conclusion: This study highlights the benefits of data augmentation and CNNs in thermal breast images. Also, it measures the influence of the database size in the performance of CNNs.
研究动机与目标
- 开发一种可靠且低成本的乳腺癌诊断系统,利用热成像技术克服乳腺X线摄影和MRI的局限性。
- 评估数据预处理、数据增强和数据库规模对卷积神经网络在热成像图像分类中性能的影响。
- 使用树Parzen估计器优化CNN超参数,以提升模型泛化能力。
- 在DMR-IR热成像数据库上对最先进CNN架构进行基准测试,以实现乳腺癌检测。
- 在医学影像的低数据环境下,建立数据增强与数据库规模之间的权衡关系。
提出的方法
- 在57例患者的热成像数据库(DMR-IR)上设计并训练了自定义CNN架构,通过仔细划分数据以最小化偏差和过拟合。
- 数据预处理包括归一化和增强技术,以提升图像质量和模型收敛性。
- 应用旋转、翻转和缩放等数据增强技术,人工扩展训练集并提高模型鲁棒性。
- 采用基于树Parzen估计器的超参数优化算法,对CNN架构和训练参数进行微调。
- 在不同数据库规模和增强条件下,对比了多种CNN模型(如ResNet50、Inception、VGG16等)的性能。
- 系统性评估了准确率、精确率、敏感度和F1分数,以评估不同配置下的模型性能。
实验结果
研究问题
- RQ1在有限的热成像数据集上,数据增强如何影响基于CNN的乳腺癌诊断模型的性能?
- RQ2在低数据环境下,热成像分类中数据库规模与数据增强之间最优权衡是什么?
- RQ3更简单、更小的CNN架构是否能在热成像乳腺图像上超越复杂的最先进模型(如ResNet50和Inception)?
- RQ4使用树Parzen估计器进行超参数优化如何影响模型准确率和泛化能力?
- RQ5预处理和数据划分策略在多大程度上减少了CNN在热成像乳腺图像训练中的过拟合和偏差?
主要发现
- 所提出的CNN模型在DMR-IR数据集上实现了92%的准确率、94%的精确率、91%的敏感度和92%的F1分数,优于ResNet50、SeResNet50和Inception模型。
- 与无增强的模型相比,数据增强在所有数据库规模下均使平均F1分数至少提升10%。
- 使用数据增强的CNN模型在20例患者的数据集上实现了与非增强模型在30例患者数据集上的相当性能。
- 性能指标的方差显著降低:无增强(10例患者)时为16%,而有增强(47例患者)时降至4%,表明模型鲁棒性更强。
- 性能指标在40至47例患者之间趋于稳定,表明在此之后收益递减,且方差增加极小。
- 本研究首次在DMR-IR热成像数据库上建立了多种CNN架构的基准,并首次使用树Parzen估计器对这一数据集进行了超参数优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。