QUICK REVIEW

[论文解读] M2CAI Workflow Challenge: Convolutional Neural Networks with Time Smoothing and Hidden Markov Model for Video Frames Classification

Rémi Cadène, Thomas Robert|arXiv (Cornell University)|Oct 18, 2016

Generative Adversarial Networks and Image Synthesis参考文献 7被引用 20

一句话总结

该论文提出了一种用于微创胆囊切除术手术中在线视频帧分类的两阶段方法，结合了微调后的ResNet-200进行帧级分类，通过平均池化和隐马尔可夫模型（HMM）实现时间平滑，以提升序列一致性。该方法在M2CAI工作流程挑战赛测试集上取得了71.9%的Jaccard指数，位列前三名解决方案。

ABSTRACT

Our approach is among the three best to tackle the M2CAI Workflow challenge. The latter consists in recognizing the operation phase for each frames of endoscopic videos. In this technical report, we compare several classification models and temporal smoothing methods. Our submitted solution is a fine tuned Residual Network-200 on 80% of the training set with temporal smoothing using simple temporal averaging of the predictions and a Hidden Markov Model modeling the sequence.

研究动机与目标

解决将胆囊切除术手术视频帧实时、在线分类为8个预定义阶段的挑战。
通过引入时间上下文信息，提升分类鲁棒性，以应对手术流程的序列特性。
评估并比较多种深度学习模型与时间平滑技术在手术视频理解中的表现。
开发一种在不同内镜视频序列中具有良好泛化能力的方法，涵盖多样的手术风格和成像条件。

提出的方法

在80%的训练视频（22个视频）上训练微调后的ResNet-200模型，采用在线数据增强，包括随机缩放、裁剪和通道归一化。
通过从原始25 fps视频中每25帧采样一次，以1 fps的频率提取帧级预测结果。
使用15帧平均（15秒）进行时间平滑，以稳定预测结果并减少噪声。
在平滑后的预测结果上训练隐马尔可夫模型（HMM），以建模状态转移并提升序列一致性。
在在线推理过程中，通过增量方式在历史预测序列上应用Viterbi算法，以保持实时运行能力。
通过将每个标签重复25次，将最终预测结果上采样至25 fps，并与原始视频长度对齐。

实验结果

研究问题

RQ1与特征提取或从零开始训练相比，微调预训练ResNet-200在分类手术视频帧方面表现如何？
RQ2在在线设置下，通过平均和HMM进行时间平滑对分类性能有何影响？
RQ3当基于深度学习预测结果进行训练时，HMM能否有效建模手术流程阶段的时间动态？
RQ4不同的数据增强策略对模型在手术视频数据上的泛化能力有何影响？
RQ5与标准微调相比，使用WELDON等专用层是否能在此数据集上提升性能？

主要发现

微调后的ResNet-200模型在所有测试分类模型中取得了最高的验证准确率（79.24%）。
基于HMM的时间平滑显著提升了性能，在在线模式下的验证集Jaccard得分达到81.60%。
离线HMM推理的Jaccard得分达到87.59%，表明序列建模在提升时间一致性方面具有巨大潜力。
微调后的ResNet-200与基于HMM的平滑方法相结合，在测试集上实现了71.9%的Jaccard指数，位列前三名解决方案。
对15帧预测结果取平均可将准确率提升至85.97%，但仍不及HMM方法，尤其在如“GallbladderRetraction”等具有挑战性的类别上表现更优。
HMM模型在罕见或模糊的阶段（如“TrocarPlacement”）中表现出色，在在线模式下准确率达到99.19%，表明其能有效处理时间依赖关系。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。