QUICK REVIEW

[論文レビュー] Recognition of Instrument-Tissue Interactions in Endoscopic Videos via Action Triplets

Chinedu Innocent Nwoye, Cristians González|arXiv (Cornell University)|Jul 10, 2020

Surgical Simulation and Training参考文献 26被引用数 88

ひとこと要約

本論文では、内視鏡動画から直接、細分化された外科手術器具・組織の相互作用をアクショントリプレット（器具、動詞、標的）として認識する深層学習モデル、Tripnetを提案する。135,000個のアノテート済みトリプレットを含むCholecT40データセットを導入し、器具局在化を活用するためのクラス活性化ガイドと、トリプレットの関係をモデル化する学習可能な3次元相互作用空間を採用。トリプレット認識において18.95%の平均平均精度（mAP）を達成し、ベースラインより15.6%高い性能を示した。

ABSTRACT

Recognition of surgical activity is an essential component to develop context-aware decision support for the operating room. In this work, we tackle the recognition of fine-grained activities, modeled as action triplets <instrument, verb, target> representing the tool activity. To this end, we introduce a new laparoscopic dataset, CholecT40, consisting of 40 videos from the public dataset Cholec80 in which all frames have been annotated using 128 triplet classes. Furthermore, we present an approach to recognize these triplets directly from the video data. It relies on a module called Class Activation Guide (CAG), which uses the instrument activation maps to guide the verb and target recognition. To model the recognition of multiple triplets in the same frame, we also propose a trainable 3D Interaction Space, which captures the associations between the triplet components. Finally, we demonstrate the significance of these contributions via several ablation studies and comparisons to baselines on CholecT40.

研究の動機と目的

内視鏡動画から構造化されたアクショントリプレット（器具、動詞、標的）として細分化された外科的行動を認識すること。
高価な空間アノテーションを必要とせずに、複雑で多成分構成の外科的相互作用を認識する課題に対処すること。
器具局在化の手がかりを活用して、動詞および標的認識の性能を向上させるモデルを開発すること。
学習可能な3次元相互作用空間を用いて、トリプレット構成要素間の意味的関連性を学習すること。

提案手法

器具、動詞、標的認識の3本のブランチを備えたマルチタスク学習（MTL）ネットワークを提案する。
器具の活性化マップを用いて動詞および標的予測をガイドするクラス活性化ガイド（CAG）モジュールを導入し、明示的な空間アノテーションへの依存を低減する。
器具、動詞、標的構成要素間の三重関係をモデル化する学習可能な3次元相互作用空間を設計する。
3次元相互作用空間を用いてトリプレット構成要素の共同表現を学習し、三重マッチングのNP困難性を回避する。
ボックス境界ではなくトリプレットレベルのラベルのみを用いて学習する弱教師付き学習戦略を採用する。
各構成要素の交差エントロピー損失と、予測を一致させるためのトリプレット整合性損失を用いて、エンドツーエンドでモデルを訓練する。

実験結果

リサーチクエスチョン

RQ1ボックス境界アノテーションを必要とせずに、内視鏡動画からアクショントリプレット（器具、動詞、標的）を効果的に認識できるか？
RQ2器具の活性化マップを活用することで、外科動画解析における動詞および標的認識がどのように向上するか？
RQ3学習可能な3次元相互作用空間を用いてトリプレット構成要素の関係をモデル化する場合、単純または非学習可能な代替手法と比較してどのような影響を及ぼすか？
RQ4提案手法は、現実世界のラミネクトミー動画における細分化された外科的行動認識において、ベースラインと比較してどのように性能を発揮するか？

主な発見

Tripnetは、器具-動詞-標的（APIVT）トリプレット認識タスクにおいて18.95%の平均平均精度（mAP）を達成し、最良のベースラインより15.6%高い性能を示した。
クラス活性化ガイド（CAG）モジュールは、APIVとAPITそれぞれで約2.0%および1.0%の向上をもたらし、器具の手がかりの価値を実証した。
学習可能な3次元相互作用空間は、非学習可能な3次元空間と比較してAPIVTで6.0%の向上を示し、トリプレット関連性の学習における有効性を裏付けた。
CAGと訓練済み3次元相互作用空間の両方を用いることで、すべての指標で最高の性能を発揮し、相乗効果が確認された。
器具-動詞認識は器具-標的認識よりも容易であると考えられ、標的クラス数が少なく、動詞にはより明確な視覚的手がかりがあるためである。
絶対的な性能は低かったが、類似ベンチマークにおける最先端技術と一貫性を示し、細分化された外科的行動認識の難易度を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。