QUICK REVIEW

[논문 리뷰] Recognition of Instrument-Tissue Interactions in Endoscopic Videos via Action Triplets

Chinedu Innocent Nwoye, Cristians González|arXiv (Cornell University)|2020. 07. 10.

Surgical Simulation and Training참고 문헌 26인용 수 88

한 줄 요약

이 논문은 내시경 영상에서 직접적으로 행동 트리플릿(도구, 동사, 대상)으로 세분화된 수술 기구-組織 상호작용을 인식하는 딥러닝 모델인 Tripnet을 제안한다. 135만 개의 애너테이션 트리플릿을 포함하는 CholecT40 데이터셋을 도입하고, 기구 위치 정보를 활용하기 위해 클래스 활성화 가이드를 도입하며, 트리플릿 관계를 모델링하기 위해 학습 가능한 3D 상호작용 공간을 사용하여, 트리플릿 인식에서 평균 정밀도(mAP) 18.95%를 달성하였으며, 이는 베이스라인 대비 15.6% 높은 성능이다.

ABSTRACT

Recognition of surgical activity is an essential component to develop context-aware decision support for the operating room. In this work, we tackle the recognition of fine-grained activities, modeled as action triplets <instrument, verb, target> representing the tool activity. To this end, we introduce a new laparoscopic dataset, CholecT40, consisting of 40 videos from the public dataset Cholec80 in which all frames have been annotated using 128 triplet classes. Furthermore, we present an approach to recognize these triplets directly from the video data. It relies on a module called Class Activation Guide (CAG), which uses the instrument activation maps to guide the verb and target recognition. To model the recognition of multiple triplets in the same frame, we also propose a trainable 3D Interaction Space, which captures the associations between the triplet components. Finally, we demonstrate the significance of these contributions via several ablation studies and comparisons to baselines on CholecT40.

연구 동기 및 목표

내시경 영상에서 구조화된 행동 트리플릿(도구, 동사, 대상)으로 세분화된 수술 활동을 인식할 수 있도록 하는 것.
비용이 많이 드는 공간적 애너테이션 없이도 복잡하고 다성분 수술 상호작용을 인식하는 데 도전하는 것.
기구 위치 정보를 활용하여 동사 및 대상 인식 성능을 향상시키는 모델을 개발하는 것.
학습 가능한 3D 상호작용 공간을 통해 트리플릿 구성 요소 간의 의미적 연관성을 학습하는 것.

제안 방법

기구, 동사, 대상 인식을 위한 세 가지 브랜치를 가진 다중태스크 학습(MTL) 네트워크를 제안한다.
기구 활성화 맵을 사용하여 동사 및 대상 예측을 가이드하는 클래스 활성화 가이드(CAG) 모듈을 도입하여 명시적 공간 애너테이션에 대한 의존도를 줄인다.
기구, 동사, 대상 구성 요소 간의 삼중관계를 모델링하기 위해 학습 가능한 3D 상호작용 공간을 설계한다.
3D 상호작용 공간을 활용하여 트리플릿 구성 요소의 공동 표현을 학습하여 삼중 매칭의 NP-완전 복잡도를 피한다.
오직 트리플릿 수준의 레이블만을 사용하고 경계 상자(Bounding box)는 사용하지 않는 약한 지도 학습 전략을 채택한다.
각 구성 요소에 대해 교차 엔트로피 손실과 예측을 정렬하기 위한 트리플릿 일관성 손실을 사용하여 모델을 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1경계 상자 애너테이션 없이 내시경 영상에서 행동 트리플릿(도구, 동사, 대상)을 효과적으로 인식할 수 있는가?
RQ2기구 활성화 맵을 활용할 경우 수술 영상 분석에서 동사 및 대상 인식 성능가 어떻게 향상되는가?
RQ3학습 가능한 3D 상호작용 공간을 통해 트리플릿 구성 요소 간의 상호작용을 모델링할 경우, 단순하거나 비학습 기반 대비 어떤 영향을 미치는가?
RQ4실제 복강경 영상에서 세분화된 수술 활동을 인식할 때 제안된 모델은 기존 베이스라인 대비 어떻게 성능을 내는가?

주요 결과

Tripnet는 기구-동사-대상(APIVT) 트리플릿 인식 작업에서 평균 정밀도(mAP) 18.95%를 달성하여 최고의 베이스라인 대비 15.6% 높은 성능을 보였다.
클래스 활성화 가이드(CAG) 유닛은 APIV와 APIT 각각 약 2.0%, 1.0% 향상시켜 기구 단서의 가치를 입증하였다.
학습 가능한 3D 상호작용 공간은 비학습 기반 3D 공간 대비 APIVT에서 6.0% 향상시켜 트리플릿 연관성 학습의 효과성을 입증하였다.
CAG와 학습 가능한 3D 상호작용 공간을 모두 사용할 경우 성능이 가장 우수하여 모든 지표에서 상호보완적 이점을 보였다.
기구-동사 인식은 기구-대상 인식보다 더 쉽다. 이는 대상 클래스 수가 적고 동사에 더 강한 시각적 단서가 있기 때문이다.
낮은 절대 성능에도 불구하고, 유사한 벤치마크에서 최신 기술 수준과 일관된 결과를 보여, 세분화된 수술 행동 인식의 곤경을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.