[论文解读] Single- and Multi-Task Architectures for Surgical Workflow Challenge at M2CAI 2016
该论文提出了一种单任务和多任务深度学习架构——PhaseNet 和 EndoNet——结合隐马尔可夫模型(HMM)和长短期记忆网络(LSTM)进行时间建模,以实现胆囊切除术视频中的手术阶段识别。在 M2CAI 2016 挑战赛中,经过 Cholec80 数据集上工具存在性标注预训练的多任务 EndoNet 表现优于单任务模型;基于 LSTM 的时间建模流程在使用多任务网络特征时,取得了 69.8% 的 Jaccard 分数,优于 HMM 的 67.7%。
The surgical workflow challenge at M2CAI 2016 consists of identifying 8 surgical phases in cholecystectomy procedures. Here, we propose to use deep architectures that are based on our previous work where we presented several architectures to perform multiple recognition tasks on laparoscopic videos. In this technical report, we present the phase recognition results using two architectures: (1) a single-task architecture designed to perform solely the surgical phase recognition task and (2) a multi-task architecture designed to perform jointly phase recognition and tool presence detection. On top of these architectures we propose to use two different approaches to enforce the temporal constraints of the surgical workflow: (1) HMM-based and (2) LSTM-based pipelines. The results show that the LSTM-based approach is able to outperform the HMM-based approach and also to properly enforce the temporal constraints into the recognition process.
研究动机与目标
- 提出基于深度学习架构的胆囊切除术腹腔镜视频中手术阶段识别方法。
- 探究多任务学习(联合阶段识别与工具检测)是否相比单任务学习能提升阶段识别性能。
- 评估通过 HMM 和 LSTM 实现的时间建模在强制执行手术流程约束方面对帧级预测的有效性。
- 比较在不同数据集(m2cai16-workflow 和 Cholec80)上微调的不同 CNN 架构(PhaseNet、EndoNet)在不同阶段定义下的性能表现。
- 在内存受限条件下,探究分别训练 CNN 和 LSTM 是否优于端到端联合训练。
提出的方法
- 微调预训练的 AlexNet,构建用于阶段识别的单任务模型 PhaseNet 和多任务模型 EndoNet。
- 将来自网络倒数第二层全连接层(PhaseNet 为 fc7,EndoNet 为 fc8)的图像特征作为后续时间建模模型的输入。
- 对 HMM 和 LSTM 流程,均使用一对多线性支持向量机(SVM)从 CNN 特征中计算阶段置信度分数。
- 采用分层隐马尔可夫模型(HHMM),其中底层状态由数据驱动,输出模型采用高斯混合模型,以增强时间一致性。
- 在提取的 CNN 特征上训练具有 1024 个隐藏状态的 LSTM 网络,使用一个具有 8 个神经元的全连接层进行最终的阶段分类。
- 由于内存限制,CNN 和 LSTM 网络分别进行训练,LSTM 在填充至 3993 帧(1 fps)的完整视频序列上进行训练。
实验结果
研究问题
- RQ1在相关任务(工具存在性检测)上进行多任务预训练,是否能提升在阶段定义不同的目标数据集上的阶段识别性能?
- RQ2基于 LSTM 的时间建模是否能优于基于 HMM 的模型,以更好地强制执行手术流程约束?
- RQ3在目标数据集(m2cai16-workflow)上微调的模型,与在不同数据集(Cholec80)上预训练、阶段定义不同的模型相比,性能如何?
- RQ4CNN 架构的选择(单任务 vs. 多任务)是否对下游时间建模的性能有显著影响?
- RQ5当在不同数据集间迁移时,LSTM 流程中的超参数选择在多大程度上影响识别性能?
主要发现
- 在 Cholec80 数据集(7 个阶段)上预训练的多任务 EndoNet 架构,优于在 m2cai16-workflow 数据集(8 个阶段)上微调的单任务 PhaseNet,分别在 HMM 和 LSTM 框架下取得 67.7% 和 69.8% 的 Jaccard 分数。
- 基于 LSTM 的时间建模流程在所有模型中均优于基于 HMM 的流程,其中使用 LSTM 的 EndoNet-Cholec80 达到了最高的 Jaccard 分数 69.8%。
- PhaseNet-m2cai16 在 HMM 框架下取得 64.1% 的 Jaccard 分数,而在 LSTM 框架下仅为 54.8%,表明该模型在 LSTM 流程中表现不佳,可能由于超参数设置不够理想。
- 尽管 Cholec80 与 m2cai16-workflow 的阶段定义存在不匹配,多任务 EndoNet 仍表现出良好的泛化能力,表明联合学习可提升特征的判别性。
- PhaseNet-m2cai16 在 LSTM 流程中性能下降,表明超参数调优至关重要,且迁移学习性能对网络架构和训练设置高度敏感。
- 结果表明,分别训练 CNN 和 LSTM 是可行且有效的,尽管由于内存限制,端到端训练仍具挑战性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。