[论文解读] M2U-Net: Effective and Efficient Retinal Vessel Segmentation for Resource-Constrained Environments
M2U-Net 是一种轻量级、高效的视网膜血管分割神经网络,结合编码器中的预训练 MobileNetV2 特征与解码器中的新型收缩瓶颈模块,在 CHASE_DB1 和 HRF 数据集上实现了最先进性能,参数量减少至 0.55M,支持在高分辨率图像上实现实时推理(GPU 上为 19.9ms,ARM 上为 14.7s)。
In this paper, we present a novel neural network architecture for retinal vessel segmentation that improves over the state of the art on two benchmark datasets, is the first to run in real time on high resolution images, and its small memory and processing requirements make it deployable in mobile and embedded systems. The M2U-Net has a new encoder-decoder architecture that is inspired by the U-Net. It adds pretrained components of MobileNetV2 in the encoder part and novel contractive bottleneck blocks in the decoder part that, combined with bilinear upsampling, drastically reduce the parameter count to 0.55M compared to 31.03M in the original U-Net. We have evaluated its performance against a wide body of previously published results on three public datasets. On two of them, the M2U-Net achieves new state-of-the-art performance by a considerable margin. When implemented on a GPU, our method is the first to achieve real-time inference speeds on high-resolution fundus images. We also implemented our proposed network on an ARM-based embedded system where it segments images in between 0.6 and 15 sec, depending on the resolution. Thus, the M2U-Net enables a number of applications of retinal vessel structure extraction, such as early diagnosis of eye diseases, retinal biometric authentication systems, and robot assisted microsurgery.
研究动机与目标
- 开发一种轻量级、高性能的神经网络,用于视网膜血管分割,适用于移动设备和嵌入式系统部署。
- 解决现有模型计算资源需求高、不适用于实时或隐私敏感应用的局限性。
- 在基准数据集上实现最先进的分割精度,同时大幅减少模型大小和推理时间。
- 通过直接在设备上部署模型,支持早期疾病诊断、视网膜生物识别和机器人显微手术等实际应用。
提出的方法
- M2U-Net 采用受 U-Net 启发的编码器-解码器架构,编码器中使用预训练的 MobileNetV2 模块以实现高效特征提取。
- 在解码器中引入新型收缩瓶颈模块,减少参数量的同时保持高质量的特征表示。
- 结合双线性上采样与跳跃连接,以保留空间分辨率并提升分割精度。
- 采用深度可分离卷积和步长大容量瓶颈模块,以最小化参数量和计算负载。
- 架构针对低内存和低处理需求进行优化,支持在基于 ARM 的嵌入式系统上部署。
- 网络采用端到端训练,结合联合损失函数;通过模型量化和硬件感知优化加速推理。
实验结果
研究问题
- RQ1轻量级神经网络是否能在移动和嵌入式设备上实现部署的同时,达到视网膜血管分割的最先进性能?
- RQ2预训练的 MobileNetV2 组件的集成如何在参数增加极少的情况下提升视网膜血管分割的特征学习能力?
- RQ3在高分辨率眼底图像上,模型效率(参数量、推理时间)与分割精度之间的权衡如何?
- RQ4所提出的架构是否能在不牺牲精度的前提下,实现在高分辨率视网膜图像(如 2336×3504)上的实时推理?
- RQ5与服务器级 GPU 实现相比,该模型在能效和功耗方面表现如何?
主要发现
- 在 CHASE_DB1 上,M2U-Net 达到新的最先进 Dice 分数 0.8006,显著优于先前方法。
- 在 HRF 上,M2U-Net 的 Dice 分数为 0.7814,且是首个在 GPU 上实现 19.9ms 实时推理的方法。
- 在 Rockchip RK3399 SoC 上,M2U-Net 仅用 14.7 秒即可完成高分辨率图像的分割,证明了其在嵌入式部署中的可行性。
- 模型参数量减少至 0.55M,相比原始 U-Net(31.03M)降低了 14 倍,使低功耗设备部署成为可能。
- 在 ARM 平台上的功耗为 9.6W,显著低于服务器级 GPU(>200W),提升了隐私保护与能效表现。
- 消融实验表明,当 t < 1 时的收缩瓶颈模块可减少参数量而不降低性能,验证了该架构的高效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。