QUICK REVIEW

[논문 리뷰] Unsupervised temporal context learning using convolutional neural networks for laparoscopic workflow analysis

Sebastian Bodenstedt, Martin Wagner|arXiv (Cornell University)|2017. 02. 13.

Colorectal Cancer Screening and Detection참고 문헌 13인용 수 24

한 줄 요약

이 논문은 수술 영상의 시간적 맥락을 수동 레이블 없이 학습할 수 있도록, 복합 신경망(CNN)을 위한 비지도 사전학습 방법을 제안한다. 라파로스코픽 영상에서 추출한 이미지 쌍의 시간적 순서를 예측하도록 CNN을 훈련시킴으로써, 수술 워크플로우 분할에 유용한 특징을 학습한다. 이는 최소한의 레이블링으로도 담황절제술 및 대장직장 수술 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Computer-assisted surgery (CAS) aims to provide the surgeon with the right type of assistance at the right moment. Such assistance systems are especially relevant in laparoscopic surgery, where CAS can alleviate some of the drawbacks that surgeons incur. For many assistance functions, e.g. displaying the location of a tumor at the appropriate time or suggesting what instruments to prepare next, analyzing the surgical workflow is a prerequisite. Since laparoscopic interventions are performed via endoscope, the video signal is an obvious sensor modality to rely on for workflow analysis. Image-based workflow analysis tasks in laparoscopy, such as phase recognition, skill assessment, video indexing or automatic annotation, require a temporal distinction between video frames. Generally computer vision based methods that generalize from previously seen data are used. For training such methods, large amounts of annotated data are necessary. Annotating surgical data requires expert knowledge, therefore collecting a sufficient amount of data is difficult, time-consuming and not always feasible. In this paper, we address this problem by presenting an unsupervised method for training a convolutional neural network (CNN) to differentiate between laparoscopic video frames on a temporal basis. We extract video frames at regular intervals from 324 unlabeled laparoscopic interventions, resulting in a dataset of approximately 2.2 million images. From this dataset, we extract image pairs from the same video and train a CNN to determine their temporal order. To solve this problem, the CNN has to extract features that are relevant for comprehending laparoscopic workflow. Furthermore, we demonstrate that such a CNN can be adapted for surgical workflow segmentation. We performed image-based workflow segmentation on a publicly available dataset of 7 cholecystectomies and 9 colorectal interventions.

연구 동기 및 목표

수술 워크플로우 분석 모델을 훈련하기 위한 레이블이 부족한 라파로스코픽 영상 데이터 문제를 해결한다.
전문가 레이블이 필요 없이 비지도 라파로스코픽 영상에서 시간적 표현을 학습할 수 있는 방법을 개발한다.
자기지도 사전학습을 통해 전이 학습을 가능하게 하여, 수술 단계 검출 등의 후행 작업에 활용한다.
복잡하고 장시간 지속되는 수술, 예를 들어 대장직장 수술과 같은 경우에도 사전학습 방법의 효과성을 입증한다.

제안 방법

324개의 비레이블 라파로스코픽 수술 영상에서 정규 간격으로 220만 개의 영상 프레임을 추출하였다.
동일한 영상 시퀀스에서 유래한 이미지 쌍을 구성하여 이진 분류 작업을 생성: 시간적으로 더 이른 프레임을 예측하는 것.
이러한 이미지 쌍의 시간적 순서를 분류하도록 CNN을 엔드 투 엔드로 훈련시어, 구분 가능한 시공간적 특징을 학습하도록 유도한다.
시퀀스적 의존성을 모델링하기 위해 GRU 기반 아키텍처를 사용하여 사전학습된 CNN을 미세조정하여 수술 단계 분할을 수행한다.
사전학습된 특징과 순환 모델링을 조합하여 단계 검출 작업의 성능을 향상시켰다.
두 개의 공개 데이터셋(7개의 담황절제술, 9개의 대장직장 수술)에서 성능을 평가하였으며, 단계 수준의 성능 보고를 수행하였다.

실험 결과

연구 질문

RQ1수동 레이블이 전혀 없이도 CNN이 라파로스코픽 영상에서 의미 있는 시간적 표현을 학습할 수 있는가?
RQ2시간적 순서 예측에 기반한 비지도 사전학습이 수술 단계 분할 작업의 성능을 향상시키는가?
RQ3소량의 레이블 데이터만 존재할 경우, 제안된 방법이 지도 학습 기반 방법보다 우수한가?
RQ4사전학습된 모델은 담황절제술과는 달리 표준화되지 않은 복잡한 수술, 예를 들어 대장직장 수술에 일반화 가능한가?
RQ5사전학습된 특징 위에 순환 모델링(예: GRU)을 통합할 경우, 순차적 워크플로우 분석에 어떤 영향을 미치는가?

주요 결과

비지도 사전학습 방법은 공개된 담황절제술 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, Dergachyova 등이 제안한 방법과 순수 CNN 기반의 EndoNet보다 우수한 성능을 보였다.
대장직장 수술 데이터셋에서는 사전학습된 모델이 무작위 초기화된 CNN보다 유의미하게 뛰어난 성능을 보였으며, 고도로 변동성이 큰 수술자 간 차이에도 불구하고 전이 가능성의 우수함을 입증하였다.
사전학습된 특징과 함께 GRU 기반 아키텍처를 사용한 모델이 가장 높은 성능을 기록하였으며, 담황절제술 데이터셋에서 평균 F1 스코어 80.8%와 대장직장 수술의 단계 P6에서 88.2%의 성능을 기록하였다.
대장직장 수술 데이터셋에서 단계 4와 단계 7이 가장 낮은 성능(각각 F1 스코어 57.7% 및 55.7%)을 보였으며, 주로 지속 시간이 짧고 인접한 단계와 혼동되기 때문이었다.
비용이 많이 드는 수동 레이블링에 의존하는 것을 줄이기 위해 시간적 순서만을 지도 신호로 활용함으로써, 대규모 비레이블 데이터에서 효과적인 사전학습이 가능해졌다.
최종 완전 연결층(fc6)의 출력은 수술 영상 데이터베이스에서 영상 색인 및 검색 작업에 활용할 수 있는 압축되고 의미 있는 표현으로 활용될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.