Skip to main content
QUICK REVIEW

[论文解读] Deep learning for automatic tumour segmentation in PET/CT images of patients with head and neck cancers

Yngve Mardal Moe, Aurora Rosvoll Groendahl|arXiv (Cornell University)|Aug 2, 2019
Medical Imaging Techniques and Applications参考文献 4被引用 29
一句话总结

本研究提出一种基于U-Net的深度学习模型,用于利用PET/CT影像对头颈部癌患者的原发肿瘤体积和病理淋巴结进行自动分割。该模型在PET/CT影像上实现了0.75±0.12的Dice相似系数,性能与专家肿瘤科医生的勾画结果相当。

ABSTRACT

An automatic segmentation algorithm for delineation of the gross tumour volume and pathologic lymph nodes of head and neck cancers in PET/CT images is described. The proposed algorithm is based on a convolutional neural network using the U-Net architecture. Several model hyperparameters were explored and the model performance in terms of the Dice similarity coefficient was validated on images from 15 patients. A separate test set consisting of images from 40 patients was used to assess the generalisability of the algorithm. The performance on the test set showed close-to-oncologist level delineations as measured by the Dice coefficient (CT: $0.65 \pm 0.17$, PET: $0.71 \pm 0.12$, PET/CT: $0.75 \pm 0.12$).

研究动机与目标

  • 开发一种用于头颈部癌患者原发肿瘤体积和病理淋巴结自动勾画的深度学习方法。
  • 减少因手动分割导致的放疗计划中观察者间和观察者内差异性。
  • 评估使用CT、PET及PET/CT融合影像模态的U-Net模型性能。
  • 评估CT窗宽设置和损失函数选择对分割精度的影响。
  • 在独立的40例患者测试集上验证模型的泛化能力。

提出的方法

  • 使用学习率为10⁻⁴的Adam优化器,基于零填充和批量归一化的U-Net卷积神经网络进行训练。
  • 模型在配准后的PET和CT影像的轴向切片上进行训练,真实标签定义为肿瘤科医生标注的GTV和淋巴结轮廓的并集。
  • 评估了三种输入模态:仅CT、仅PET和PET/CT融合,CT窗宽分别测试100和200 HU,窗中心分别为60和70 HU。
  • 在训练过程中评估了两种损失函数——交叉熵损失和Dice损失,以优化分割性能。
  • 通过15例患者的验证集进行超参数调优,选择表现最佳的模型用于最终测试。
  • 最终模型在40例患者独立保留测试集上进行评估,按肿瘤T分期分层,以评估其泛化能力。

实验结果

研究问题

  • RQ1基于U-Net架构的深度学习模型是否能在头颈部癌PET/CT影像中实现与专家肿瘤科医生相当的分割性能?
  • RQ2单独和联合使用PET与CT影像模态如何影响分割精度?
  • RQ3CT窗宽设置是否能提升深度学习模型在肿瘤分割中的性能?
  • RQ4在本临床背景下,交叉熵损失与Dice损失哪种能带来更好的分割结果?
  • RQ5该训练模型在未参与训练或验证的独立患者测试集上的泛化能力如何?

主要发现

  • PET/CT模型在测试集上取得了最高的Dice相似系数(0.75±0.12),优于仅CT模型(0.65±0.17)和仅PET模型(0.71±0.12)。
  • CT窗宽显著提升了模型性能,且不同窗宽参数(100/60 HU与200/70 HU)之间无显著差异。
  • 损失函数选择(交叉熵与Dice)对模型性能无显著影响。
  • PET/CT模型的敏感性最高,达0.74±0.16,阳性预测值为0.78±0.15。
  • 所有模型的特异性均保持在较高水平(>0.99),表明假阳性率较低。
  • 该模型在测试集上的表现与既往研究报道的观察者间差异性相当(平均Dice值0.56–0.69),表明其达到接近专家水平的准确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。