[论文解读] Learning from a tiny dataset of manual annotations: a teacher/student approach for surgical phase recognition
本文提出一个用于外科阶段识别的师生半监督框架,该框架使用 CNN-biLSTM-CRF 教师来为未标注的视频生成合成标签,训练实时 CNN-LSTM 学生模型,并在注释极少的情况下显示出性能提升。
Vision algorithms capable of interpreting scenes from a real-time video stream are necessary for computer-assisted surgery systems to achieve context-aware behavior. In laparoscopic procedures one particular algorithm needed for such systems is the identification of surgical phases, for which the current state of the art is a model based on a CNN-LSTM. A number of previous works using models of this kind have trained them in a fully supervised manner, requiring a fully annotated dataset. Instead, our work confronts the problem of learning surgical phase recognition in scenarios presenting scarce amounts of annotated data (under 25% of all available video recordings). We propose a teacher/student type of approach, where a strong predictor called the teacher, trained beforehand on a small dataset of ground truth-annotated videos, generates synthetic annotations for a larger dataset, which another model - the student - learns from. In our case, the teacher features a novel CNN-biLSTM-CRF architecture, designed for offline inference only. The student, on the other hand, is a CNN-LSTM capable of making real-time predictions. Results for various amounts of manually annotated videos demonstrate the superiority of the new CNN-biLSTM-CRF predictor as well as improved performance from the CNN-LSTM trained using synthetic labels generated for unannotated videos. For both offline and online surgical phase recognition with very few annotated recordings available, this new teacher/student strategy provides a valuable performance improvement by efficiently leveraging the unannotated data.
研究动机与目标
- 应对仅有极少手工标注视频数据时的外科阶段识别挑战。
- 提出一个师生框架,其中强大的离线预测器为未标注视频生成合成标签。
- 证明合成标签可以提升实时 CNN-LSTM 学生的性能,并接近全监督基线。
- 在同一框架内比较离线和在线推理能力。
提出的方法
- 引入一个 CNN-biLSTM-CRF 教师用于离线推理以生成合成注释。
- 使用 ResNet-50 v2 CNN 从帧中提取 2048-d 视觉特征。
- 加入双向 LSTM 以捕获未来上下文,并使用线性链 CRF 来建模阶段转变。
- 使用真实标签和教师生成标签的混合数据集(G_{i,j})训练用于实时预测的 CNN-LSTM 学生模型。
- 对教师应用数据增广和通过时间反向传播的端到端训练。
- 在 cholec120 数据集上用 7 阶段标签评估多组迷你训练集(大小 1–80)。
实验结果
研究问题
- RQ1在外科阶段识别中,是否能用在稀缺标注上训练的教师模型为未标注视频生成有用的合成标签?
- RQ2与仅使用稀少的真实标签数据训练相比,教师生成的标签方法是否能提高实时 CNN-LSTM 学生的性能?
- RQ3随着标注数据增加,半监督训练方法的性能能接近全监督训练到什么程度?
- RQ4教师架构(CNN-biLSTM-CRF)与更简单模型在离线和在线预测性能上的影响是什么?
主要发现
- CNN-biLSTM-CRF 教师在去除变体的对比中表现最佳,是离线模型中最强的预测器。
- CNN-LSTM 训练使用教师生成的合成标签在性能上显著优于仅用真实标签训练,缩小了数据差距。
- 仅需 20 个手动标注视频,CNN-biLSTM-CRF 在测试集上达到 84.1% 的准确率和 75.8% 的 F1,接近全监督训练的 89.5% 准确率和 82.5% F1。
- 教师生成的注释质量随更多手动标注视频而提高,使 G_{i,j} 集合在训练学生时越来越具可行性。
- 使用合成标签时,CNN-LSTM 在线预测器在 20 与 80 个真实视频之间的差距减半;如果将学生替换为离线预测器,差距可完全缩小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。