QUICK REVIEW

[论文解读] Stack-U-Net: Refinement Network for Image Segmentation on the Example of Optic Disc and Cup

Artem Sevastopolsky, Stepan Drapak|arXiv (Cornell University)|Apr 30, 2018

Retinal Imaging and Analysis被引用 25

一句话总结

本文提出Stack-U-Net，一种基于U-Net的级联细化网络堆叠结构，用于视网膜图像中的视盘和视杯分割，显著提升了单个U-Net及当前最先进方法的分割精度，且无需更大规模数据集。该模型通过跳跃连接和输入图像上下文实现迭代预测优化，在公开和私有数据集上均达到最先进性能，视盘Dice分数最高达0.97，视杯最高达0.85。

ABSTRACT

In this work, we propose a special cascade network for image segmentation, which is based on the U-Net networks as building blocks and the idea of the iterative refinement. The model was mainly applied to achieve higher recognition quality for the task of finding borders of the optic disc and cup, which are relevant to the presence of glaucoma. Compared to a single U-Net and the state-of-the-art methods for the investigated tasks, very high segmentation quality has been achieved without a need for increasing the volume of datasets. Our experiments include comparison with the best-known methods on publicly available databases DRIONS-DB, RIM-ONE v.3, DRISHTI-GS, and evaluation on a private data set collected in collaboration with University of California San Francisco Medical School. The analysis of the architecture details is presented, and it is argued that the model can be employed for a broad scope of image segmentation problems of similar nature.

研究动机与目标

为了提升视网膜眼底图像中视盘和视杯分割的精度，以实现青光眼的早期检测。
为解决医学图像分割中训练数据有限且对高精度要求的挑战。
开发一种可扩展的端到端细化架构，提升分割质量而不增加数据集规模。
在公开基准数据集和来自UCSF医学院的大规模私有数据集上评估模型性能。

提出的方法

该模型采用U-Net模块的级联结构，每个后续网络在接收前序网络输出的同时，也接收原始输入图像作为上下文信息。
堆叠中的每个基础网络均包含从输入图像到其第一层的跳跃连接，以保留空间和语义上下文信息。
在部分变体中采用残差块（ResU-Net），以改善梯度流动和特征学习。
细化过程为迭代式：预测结果逐层优化，每个模块学习更精细的特征。
模型采用二元交叉熵损失与Dice损失联合训练，优化器使用Adam。
块的数量经过调优以平衡性能与计算成本，15个块被确定为最优配置。

实验结果

研究问题

RQ1基于U-Net的级联网络能否提升视盘和视杯等小而临床相关的结构的分割精度？
RQ2利用输入图像上下文进行迭代细化，是否能降低在小规模医学数据集上的过拟合风险并提升鲁棒性？
RQ3堆叠的U-Net模块数量如何影响视盘和视杯分割任务的性能与泛化能力？
RQ4所提出的Stack-U-Net架构能否在不依赖额外训练数据的前提下超越单个U-Net及当前最先进方法？
RQ5从输入图像到每个模块初始层的跳跃连接对分割质量有何影响？

主要发现

在DRISHTI-GS数据集上，15个ResU-Net块的Stack-U-Net在视盘分割中达到0.97的Dice分数，优于所有基线方法。
在RIM-ONE v.3数据集上，该模型在视杯分割中达到0.95的Dice分数，超越先前最先进方法。
在私有UCSF-DB数据集上，Stack-U-Net在视杯分割中达到0.85的Dice分数，优于人类标注者（人类间Dice均值为0.66）。
15个块的模型表现最佳，表明超过15个块后性能不再提升，甚至可能下降。
从输入图像到每个模块首层的跳跃连接使性能提升了一个微小但稳定的幅度，仅在一种配置中缺失该连接时性能略有提升。
视觉分析显示，性能最佳的模型在处理具有低对比度或模糊区域等挑战性情况时，比单个U-Net或先前方法更具鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。