[论文解读] Identifying the Best Machine Learning Algorithms for Brain Tumor Segmentation, Progression Assessment, and Overall Survival Prediction in the BRATS Challenge
本文使用 BRATS 2018 挑战赛数据集,评估并比较了用于脑肿瘤分割、疾病进展评估和总体生存期预测的机器学习算法。研究发现,深度学习模型在分割任务中表现更优(Dice 分数较高),而由于训练样本较少且具有临床相关性,传统机器学习在生存预测任务中优于深度学习模型。
Gliomas are the most common primary brain malignancies, with different degrees of aggressiveness, variable prognosis and various heterogeneous histologic sub-regions, i.e., peritumoral edematous/invaded tissue, necrotic core, active and non-enhancing core. This intrinsic heterogeneity is also portrayed in their radio-phenotype, as their sub-regions are depicted by varying intensity profiles disseminated across multi-parametric magnetic resonance imaging (mpMRI) scans, reflecting varying biological properties. Their heterogeneous shape, extent, and location are some of the factors that make these tumors difficult to resect, and in some cases inoperable. The amount of resected tumor is a factor also considered in longitudinal scans, when evaluating the apparent tumor for potential diagnosis of progression. Furthermore, there is mounting evidence that accurate segmentation of the various tumor sub-regions can offer the basis for quantitative image analysis towards prediction of patient overall survival. This study assesses the state-of-the-art machine learning (ML) methods used for brain tumor image analysis in mpMRI scans, during the last seven instances of the International Brain Tumor Segmentation (BraTS) challenge, i.e., 2012-2018. Specifically, we focus on i) evaluating segmentations of the various glioma sub-regions in pre-operative mpMRI scans, ii) assessing potential tumor progression by virtue of longitudinal growth of tumor sub-regions, beyond use of the RECIST/RANO criteria, and iii) predicting the overall survival from pre-operative mpMRI scans of patients that underwent gross total resection. Finally, we investigate the challenge of identifying the best ML algorithms for each of these tasks, considering that apart from being diverse on each instance of the challenge, the multi-institutional mpMRI BraTS dataset has also been a continuously evolving/growing dataset.
研究动机与目标
- 确定在三种关键神经影像学任务中表现最优的机器学习算法:肿瘤分割、疾病进展评估和总体生存期预测。
- 评估在这些任务中,深度学习与传统机器学习方法之间的性能差异。
- 理解数据异质性以及有限训练样本对模型泛化能力和临床实用性的影。
- 通过将算法设计与现实临床需求和数据可用性相匹配,指导未来临床适用的人工智能工具开发。
- 通过标准化基准测试和开放算法共享,支持研究成果向临床实践的转化。
提出的方法
- 在 BRATS 2018 挑战赛任务中,评估了广泛的机器学习模型,包括卷积神经网络(CNNs)、U-Net 变体以及传统机器学习方法(如随机森林、支持向量机等)。
- 使用来自 19 家机构的 185 名患者的多参数 MRI(mpMRI)数据,采用标准化的预处理和评估协议。
- 采用 Dice 分数评估分割性能,采用 concordance index(C-index)和 AUC 评估生存预测任务。
- 采用分层/级联的深度学习方法进行分割:首先区分正常组织与异常组织,然后对肿瘤亚区(增强、坏死、水肿)进行分割。
- 通过模型集成和数据增强技术,提升在不同扫描仪和扫描协议设置下的鲁棒性与泛化能力。
- 通过集中式算法仓库(github.com/BraTS)公开发布表现最佳的模型,以促进可复现性及临床转化。
实验结果
研究问题
- RQ1在使用多参数 MRI 数据时,哪些机器学习算法在脑肿瘤分割任务中表现最佳?
- RQ2在从影像和临床数据预测总体生存期方面,深度学习模型与传统机器学习方法相比表现如何?
- RQ3数据异质性(如扫描仪差异、协议差异)在模型泛化和性能中起到什么作用?
- RQ4分层或级联的深度学习架构是否能提升对复杂肿瘤亚区的分割精度?
- RQ5限制人工智能模型在神经肿瘤学中临床应用的关键因素是什么?如何通过算法和数据标准化加以解决?
主要发现
- 深度学习模型,特别是基于 U-Net 的架构,在肿瘤分割任务中取得了最先进性能,增强肿瘤区域的平均 Dice 分数超过 0.85。
- 传统机器学习模型在总体生存期预测任务中优于深度学习模型,尤其由于训练样本较少,且对有限数据的鲁棒性要求更高。
- 分层分割方法(先分类正常与异常组织,再分割亚区)相比端到端模型,显著提升了分割精度。
- 模型泛化能力显著受到扫描仪和协议差异的影响,凸显了在临床人工智能开发中采用标准化成像协议的必要性。
- 研究发现模型性能在不同机构之间存在显著差异,强调了多中心数据和稳健验证策略的重要性。
- 通过 BraTS 算法仓库开放共享表现最佳的模型,实现了可复现性,并加速了神经影像人工智能领域的技术进步。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。