QUICK REVIEW

[论文解读] Tool and Phase recognition using contextual CNN features

Manish Sahu, Anirban Mukhopadhyay|arXiv (Cornell University)|Oct 27, 2016

Surgical Simulation and Training参考文献 1被引用 30

一句话总结

该论文提出了一种基于迁移学习的方法，利用ImageNet的上下文卷积神经网络（CNN）特征来提升手术器械和手术阶段的识别性能。通过结合微调后的AlexNet特征与基于高斯分布的时序建模，以及多分类随机森林分类——并引入困难负样本挖掘技术，该方法在M2CAI16挑战赛数据集上实现了53.13%的平均F1分数（阶段识别）和54.5%的平均平均精度（工具检测）。

ABSTRACT

A transfer learning method for generating features suitable for surgical tools and phase recognition from the ImageNet classification features [1] is proposed here. In addition, methods are developed for generating contextual features and combining them with time series analysis for final classification using multi-class random forest. The proposed pipeline is tested over the training and testing datasets of M2CAI16 challenges: tool and phase detection. Encouraging results are obtained by leave-one-out cross validation evaluation on the training dataset.

研究动机与目标

解决上下文感知手术系统中全自动手术阶段识别的挑战。
在现有迁移学习方法（如EndoNet）的基础上，通过引入上下文与时序信息进行改进。
通过使用高斯分布对手术阶段的时序顺序进行建模，提升阶段识别的准确性。
通过两阶段随机森林分类结合困难负样本挖掘，减少远距离阶段之间的误分类。
在有限的训练数据上，利用CNN特征与时序分析，构建一个鲁棒的器械与阶段识别流程。

提出的方法

使用预训练的ImageNet权重，对受AlexNet启发的CNN架构进行微调，用于手术器械检测，并增加一个'无器械'类别。
从CNN的'fc7'层提取特征，并通过连接前十个时间点的特征，生成上下文特征。
使用三个高斯分布对时序阶段转换进行建模，根据阶段的时间接近程度（初始、中间、结束阶段）进行分组。
在CNN特征上应用多分类随机森林分类进行初始阶段预测，随后通过阶段特异性分类器进行困难负样本挖掘。
将时序预测结果与初始随机森林输出结合，利用阶段特异性随机森林对最终阶段分类进行优化。
在M2CAI16训练数据集上采用留一视频交叉验证进行评估。

实验结果

研究问题

RQ1上下文CNN特征是否能超越标准迁移学习，在手术器械与阶段识别上带来性能提升？
RQ2使用高斯分布对手术阶段的时序顺序进行建模，对分类准确率有何影响？
RQ3通过阶段特异性随机森林进行困难负样本挖掘，是否能减少相似或相邻阶段之间的误分类？
RQ4上下文特征与时序建模在有限的手术视频数据集上，能在多大程度上提升性能？
RQ5与基线迁移学习方法（如EndoNet）相比，所提出方法在器械与阶段识别准确率方面表现如何？

主要发现

所提方法在M2CAI16工具检测挑战赛训练数据集上实现了54.5%的平均平均精度（AP）。
剪刀检测的AP最低，为26.2%，与先前研究（如EndoNet）的发现一致。
准备阶段的F1分数最低，为39.59%，表明早期手术阶段的识别存在困难。
所有阶段的总体平均F1分数为53.13%，表明在具有挑战性的数据集上表现中等。
穿刺针放置阶段的F1分数最高，达到78.07%，表明早期手术步骤具有更好的可区分性。
两阶段分类结合困难负样本挖掘，通过在训练中聚焦于相邻阶段，提升了阶段预测的定位精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。