QUICK REVIEW

[论文解读] Recognition of Instrument-Tissue Interactions in Endoscopic Videos via Action Triplets

Chinedu Innocent Nwoye, Cristians González|arXiv (Cornell University)|Jul 10, 2020

Surgical Simulation and Training参考文献 26被引用 88

一句话总结

本文提出 Tripnet，一种深度学习模型，可直接从内窥镜视频中识别精细的手术器械-组织交互行为作为动作三元组（器械，动词，目标）。该研究引入了 CholecT40 数据集，包含 135K 个标注的三元组，并采用类别激活引导来利用器械定位信息，同时引入可学习的三维交互空间以建模三元组关系，最终在三元组识别任务上达到 18.95% 的平均平均精度（mAP），较基线模型高出 15.6%。

ABSTRACT

Recognition of surgical activity is an essential component to develop context-aware decision support for the operating room. In this work, we tackle the recognition of fine-grained activities, modeled as action triplets <instrument, verb, target> representing the tool activity. To this end, we introduce a new laparoscopic dataset, CholecT40, consisting of 40 videos from the public dataset Cholec80 in which all frames have been annotated using 128 triplet classes. Furthermore, we present an approach to recognize these triplets directly from the video data. It relies on a module called Class Activation Guide (CAG), which uses the instrument activation maps to guide the verb and target recognition. To model the recognition of multiple triplets in the same frame, we also propose a trainable 3D Interaction Space, which captures the associations between the triplet components. Finally, we demonstrate the significance of these contributions via several ablation studies and comparisons to baselines on CholecT40.

研究动机与目标

从内窥镜视频中实现对手术活动的细粒度识别，将其结构化为动作三元组（器械，动词，目标）。
解决在无需昂贵空间标注的情况下识别复杂、多组件手术交互的挑战。
开发一种利用器械定位线索以提升动词和目标识别性能的模型。
通过可学习的三维交互空间，学习三元组各成分之间的语义关联。

提出的方法

提出一种多任务学习（MTL）网络，包含三个分支，分别用于器械、动词和目标识别。
引入类别激活引导（CAG）模块，利用器械激活图来指导动词和目标预测，降低对显式空间标注的依赖。
设计一个可学习的三维交互空间，以建模器械、动词和目标三者之间的三元组关系。
利用三维交互空间学习三元组各成分的联合表示，避免三元组匹配带来的 NP-难复杂度。
采用弱监督学习策略，仅使用带有三元组级别标签的视频帧进行训练，无需边界框标注。
通过交叉熵损失分别优化各成分的预测，并引入三元组一致性损失以对齐预测结果，实现端到端训练。

实验结果

研究问题

RQ1在无需边界框标注的情况下，能否有效从内窥镜视频中识别动作三元组（器械，动词，目标）？
RQ2利用器械激活图如何提升手术视频分析中动词和目标的识别性能？
RQ3与朴素或未训练的替代方案相比，通过可学习的三维交互空间建模三元组成分间关系有何影响？
RQ4所提出的模型在真实世界腹腔镜视频中识别细粒度手术活动方面，相较于基线模型表现如何？

主要发现

Tripnet 在器械-动词-目标（APIVT）三元组识别任务上达到 18.95% 的平均平均精度（mAP），较最佳基线模型高出 15.6%。
类别激活引导（CAG）模块使 APIV 和 APIT 分别提升约 2.0% 和 1.0%，证明了器械提示信息的价值。
可学习的三维交互空间相比未训练的三维空间在 APIVT 上提升 6.0%，证实其在学习三元组关联方面的有效性。
当同时使用 CAG 和训练后的三维交互空间时，模型性能最佳，所有指标均显示出互补优势。
器械-动词识别比器械-目标识别更容易，可能是因为目标类别更少，且动词具有更强的视觉线索。
尽管绝对性能较低，但结果与类似基准上的最先进水平保持一致，证实了细粒度手术动作识别任务的难度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。