QUICK REVIEW

[论文解读] Y-Net: A deep Convolutional Neural Network for Polyp Detection

Ahmed Mohammed, Sule Yildirim Yayilgan|arXiv (Cornell University)|Jan 1, 2018

Colorectal Cancer Screening and Detection参考文献 11被引用 35

一句话总结

本文提出 Y-Net，一种新颖的双编码器、单解码器 U-Net 启发的深度学习架构，用于结肠镜视频中的息肉检测。该方法结合了预训练的 VGG19 编码器与随机初始化的镜像编码器，通过一种新颖的求和跳跃连接操作和编码器特定的学习率，提升在有限医学数据下的特征学习能力。Y-Net 在 ASU-MAYO 数据集上实现了 85.9% 的 F1 分数和 84.4% 的召回率，相较于最先进方法在 F1 分数上提升 7.3%，在召回率上提升 13%。

ABSTRACT

Colorectal polyps are important precursors to colon cancer, the third most common cause of cancer mortality for both men and women. It is a disease where early detection is of crucial importance. Colonoscopy is commonly used for early detection of cancer and precancerous pathology. It is a demanding procedure requiring significant amount of time from specialized physicians and nurses, in addition to a significant miss-rates of polyps by specialists. Automated polyp detection in colonoscopy videos has been demonstrated to be a promising way to handle this problem. {However, polyps detection is a challenging problem due to the availability of limited amount of training data and large appearance variations of polyps. To handle this problem, we propose a novel deep learning method Y-Net that consists of two encoder networks with a decoder network. Our proposed Y-Net method} relies on efficient use of pre-trained and un-trained models with novel sum-skip-concatenation operations. Each of the encoders are trained with encoder specific learning rate along the decoder. Compared with the previous methods employing hand-crafted features or 2-D/3-D convolutional neural network, our approach outperforms state-of-the-art methods for polyp detection with 7.3% F1-score and 13% recall improvement.

研究动机与目标

为解决由于标注训练数据有限和外观差异大导致的结肠镜中息肉检测准确率低的问题。
通过利用预训练和未训练的编码器网络，提升息肉检测的性能。
通过引入一种新颖的求和跳跃连接机制实现特征融合，降低息肉检测中的假阳性和假阴性。
在不依赖大量数据增强的情况下，实现高召回率和高精确率的息肉检测。
开发一种实用的深度学习框架，能够在真实结肠镜视频中对各种形状、大小和纹理的息肉实现良好泛化。

提出的方法

Y-Net 采用双编码器、单解码器架构，受 U-Net 启发，其中一个编码器为预训练的 VGG19，另一个为随机初始化的镜像网络。
模型使用一种新颖的求和跳跃连接操作，在将特征传递给解码器之前融合来自两个编码器的特征，从而实现更深层、更鲁棒的特征学习。
在训练过程中应用编码器特定的学习率：预训练编码器以较低学习率进行微调，而未训练编码器则以较高学习率从头开始训练。
解码器从头开始训练，使用判别性损失函数以优化息肉定位和分割。
该框架避免了大量数据增强，转而依赖架构创新，从有限的训练数据中实现良好泛化。
模型在 ASU-MAYO 息肉检测数据集上进行端到端训练，推理在测试视频上执行，以评估检测延迟和分割精度。

实验结果

研究问题

RQ1结合预训练和未训练网络的双编码器架构是否能在有限医学数据集上提升息肉检测性能？
RQ2所提出的求和跳跃连接操作是否相比标准跳跃连接能增强特征表示和分割精度？
RQ3编码器特定的学习率调度如何影响模型在息肉检测中的收敛性和性能？
RQ4Y-Net 是否能在不依赖数据增强的情况下，实现高于最先进方法的召回率和 F1 分数？
RQ5Y-Net 在实时结肠镜视频序列中的检测延迟是多少？

主要发现

Y-Net 在 ASU-MAYO 数据集上实现了 85.9% 的 F1 分数，相较于之前最先进方法提升了 7.3%。
该模型在召回率上达到 84.4%，较之前最先进方法提升 13%，表明对真实息肉实例的检测能力显著增强。
在 ASU-MAYO 数据集上，Y-Net 的真正例数量最多（3582 个），假阴性数量最少（662 个），优于所有对比方法。
该模型在所有含息肉的测试视频中检测延迟不超过 8 帧，表明具备实时应用潜力。
使用预训练的 VGG19 编码器与随机初始化的镜像编码器结合求和跳跃连接，优于单一编码器 U-Net 变体和混合手工设计特征方法。
消融实验确认，预训练与未训练编码器的融合在精确率与召回率之间实现了最佳平衡，优于仅使用预训练编码器或仅使用随机初始化编码器的模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。