[论文解读] Accurate Retinal Vessel Segmentation via Octave Convolution Neural Network
该论文提出Octave UNet,一种新颖的编码器-解码器卷积神经网络,采用八度卷积和八度转置卷积来捕捉多空间频率特征,实现彩色眼底图像中视网膜血管的精确分割。该方法在HRF数据集上达到0.9698 AUROC的最先进性能,推理速度约为每张图像0.4秒,对图像伪影和异常具有强鲁棒性,优于基线UNet和先前的最先进方法。
Retinal vessel segmentation is a crucial step in diagnosing and screening various diseases, including diabetes, ophthalmologic diseases, and cardiovascular diseases. In this paper, we propose an effective and efficient method for vessel segmentation in color fundus images using encoder-decoder based octave convolution networks. Compared with other convolution networks utilizing standard convolution for feature extraction, the proposed method utilizes octave convolutions and octave transposed convolutions for learning multiple-spatial-frequency features, thus can better capture retinal vasculatures with varying sizes and shapes. To provide the network the capability of learning how to decode multifrequency features, we extend octave convolution and propose a new operation named octave transposed convolution. A novel architecture of convolutional neural network, named as Octave UNet integrating both octave convolutions and octave transposed convolutions is proposed based on the encoder-decoder architecture of UNet, which can generate high resolution vessel segmentation in one single forward feeding without post-processing steps. Comprehensive experimental results demonstrate that the proposed Octave UNet outperforms the baseline UNet achieving better or comparable performance to the state-of-the-art methods with fast processing speed. Specifically, the proposed method achieves 0.9664 / 0.9713 / 0.9759 / 0.9698 accuracy, 0.8374 / 0.8664 / 0.8670 / 0.8076 sensitivity, 0.9790 / 0.9798 / 0.9840 / 0.9831 specificity, 0.8127 / 0.8191 / 0.8313 / 0.7963 F1 score, and 0.9835 / 0.9875 / 0.9905 / 0.9845 Area Under Receiver Operating Characteristic curve, on DRIVE, STARE, CHASE_DB1, and HRF datasets, respectively.
研究动机与目标
- 解决在噪声大、对比度低的眼底图像中,因视网膜血管尺寸、形状和强度各异而带来的分割挑战。
- 通过八度卷积实现多空间频率表征,提升特征学习的效率与准确性。
- 通过端到端、单次前向传播的全图分割,消除后处理和分块推理的需要。
- 增强对临床眼底图像中常见伪影(如出血、渗出和光照不均)的鲁棒性。
- 在分割精度和计算效率两方面实现高水平表现,超越基线UNet和现有最先进方法。
提出的方法
- 该方法引入八度卷积,将特征图划分为高频和低频子带,以实现高效的多尺度特征学习。
- 提出一种新型操作——八度转置卷积,以在解码路径中有效上采样并重构多频段特征。
- 该架构将八度卷积和八度转置卷积整合进类似UNet的编码器-解码器框架中,实现分层特征学习与精确分割。
- 网络采用二元交叉熵损失进行端到端训练,将每个像素分类为血管或非血管,无需裁剪图像块或后处理。
- 模型在单次前向传播中处理全分辨率眼底图像,实现计算开销极小的实时推理。
- 最终分割采用全局阈值0.5,敏感性分析证实其在不同阈值下均具有鲁棒性。
实验结果
研究问题
- RQ1与标准卷积相比,八度卷积是否能更好地表征多尺度视网膜血管特征?
- RQ2所提出的八度转置卷积是否能提升解码路径中高分辨率血管图的重建效果?
- RQ3Octave UNet是否在分割精度和速度上优于标准UNet及其他最先进方法?
- RQ4该模型对临床眼底图像中常见的伪影(如出血、渗出和光照不均)是否具有足够鲁棒性?
- RQ5该方法在图像质量与血管特征各异的多样化数据集上是否保持一致的性能表现?
主要发现
- 在DRIVE数据集上,Octave UNet实现0.9664的准确率、0.8374的敏感度、0.9790的特异度、0.8127的F1分数和0.9835的AUROC。
- 在STARE数据集上,其准确率为0.9713,敏感度为0.8664,特异度为0.9798,F1分数为0.8191,AUROC为0.9875。
- 在CHASE_DB1数据集上,该方法达到0.9759的准确率、0.8670的敏感度、0.9840的特异度、0.8313的F1分数和0.9905的AUROC。
- 在HRF数据集上,其准确率为0.9698,敏感度为0.8076,特异度为0.9831,F1分数为0.7963,AUROC为0.9845。
- 模型在CPU上处理单张眼底图像约需0.4秒,显著快于基于分块的方法(如Antiga等人[34]的10.5秒),且与端到端方法相当。
- 该方法对全局阈值变化表现出鲁棒性,在τ=0.5附近性能下降极小,且在较低阈值(如τ≈0.25)时表现出显著的敏感度提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。