QUICK REVIEW

[논문 리뷰] Single- and Multi-Task Architectures for Surgical Workflow Challenge at M2CAI 2016

Andru Putra Twinanda, Didier Mutter|arXiv (Cornell University)|2016. 10. 27.

Artificial Intelligence in Healthcare and Education참고 문헌 3인용 수 25

한 줄 요약

이 논문은 총담도절제술 영상에서 수술 단계 인식을 위해 단일 및 다중 작업 딥 러닝 아키텍처인 PhaseNet와 EndoNet를 제안하며, 시간적 모델링을 위해 HMM과 LSTMs를 통합한다. 다중 작업 EndoNet은 Cholec80 데이터셋에서 도구 존재 정보를 포함해 사전 훈련한 후, M2CAI 2016 챌린지에서 단일 작업 모델보다 뛰어난 성능을 보였다. 또한, 다중 작업 네트워크에서 추출한 특징을 사용할 경우, LSTM 기반 시간적 파이프라인은 HMM보다 뛰어난 Jaccard 점수(69.8%)를 기록했으며, HMM은 67.7%를 기록했다.

ABSTRACT

The surgical workflow challenge at M2CAI 2016 consists of identifying 8 surgical phases in cholecystectomy procedures. Here, we propose to use deep architectures that are based on our previous work where we presented several architectures to perform multiple recognition tasks on laparoscopic videos. In this technical report, we present the phase recognition results using two architectures: (1) a single-task architecture designed to perform solely the surgical phase recognition task and (2) a multi-task architecture designed to perform jointly phase recognition and tool presence detection. On top of these architectures we propose to use two different approaches to enforce the temporal constraints of the surgical workflow: (1) HMM-based and (2) LSTM-based pipelines. The results show that the LSTM-based approach is able to outperform the HMM-based approach and also to properly enforce the temporal constraints into the recognition process.

연구 동기 및 목표

딥 러닝 아키텍처를 사용하여 복강경 총담도절제술 영상에서 수술 단계 인식 문제를 해결한다.
단일 작업 학습 대비 다중 작업 학습(동시 단계 및 도구 탐지)이 수술 단계 인식 성능을 향상시키는지 조사한다.
HMM과 LSTM을 활용한 시간적 모델링이 프레임 단위 예측에 수술 워크플로우 제약 조건을 강제하는 데 효과적인지 평가한다.
다양한 단계 정의를 가진 서로 다른 데이터셋(m2cai16-workflow 및 Cholec80)에 맞게 미세조정된 다양한 CNN 아키텍처(PhaseNet, EndoNet)의 성능을 비교한다.
메모리 제약 조건을 고려할 때, CNN과 LSTM을 별도로 훈련하는 것이 엔드 투 엔드 훈련보다 더 나은 성능을 내는지 여부를 판단한다.

제안 방법

PhaseNet(단일 작업) 및 EndoNet(다중 작업) 아키텍처를 위해 사전 훈련된 AlexNet을 미세조정하여 단계 인식을 위한 모델을 구축하였다.
후속 시간적 모델의 입력으로서, 최종 완전 연결층(fc7 for PhaseNet, fc8 for EndoNet)의 특징을 사용하였다.
HMM 및 LSTM 파이프라인 양쪽에 대해, CNN 특징에서 단일 대 다수 선형 SVM을 적용하여 단계 신뢰도 점수를 계산하였다.
시간적 일관성을 강제하기 위해 데이터 기반의 하위 수준 상태와 혼합 정규분포를 사용한 계층적 HMM(HHMM)을 적용하였다.
최종 단계 분류를 위해 8개 노드를 가진 완전 연결층을 사용한 1024개의 은닉 상태를 가진 LSTM 네트워크를 추출된 CNN 특징에 대해 훈련시켰다.
메모리 제약 조건으로 인해 CNN과 LSTM 네트워크를 별도로 훈련하였으며, LSTM은 3993 프레임(1fps)으로 패딩된 전체 영상 시퀀스를 기반으로 훈련되었다.

실험 결과

연구 질문

RQ1관련 작업(도구 존재 탐지)에서 다중 작업 사전 훈련을 통해 목표 데이터셋(다른 단계 정의)에서의 단계 인식 성능 향상이 가능한가?
RQ2HMM 기반 모델 대비 LSTM 기반 시간적 모델이 프레임 단위 예측에 수술 워크플로우 제약 조건을 더 잘 강제할 수 있는가?
RQ3목표 데이터셋(m2cai16-workflow)에 대해 미세조정된 모델과 다른 데이터셋(Cholec80)에서 사전 훈련된 모델의 성능는 어떻게 비교되는가?
RQ4CNN 아키텍처 선택(단일 작업 대 다중 작업)이 후속 시간적 모델링 성능에 상당한 영향을 미치는가?
RQ5다양한 데이터셋 간 전이 시, LSTM 파이프라인의 하이퍼파rameter 선택이 인식 성능에 얼마나 큰 영향을 미치는가?

주요 결과

Cholec80(7단계)에서 사전 훈련된 다중 작업 EndoNet 아키텍처는 m2cai16-workflow(8단계)에 대해 미세조정된 단일 작업 PhaseNet보다 뛰어난 성능을 보였으며, HMM 기반으로 67.7%의 Jaccard 점수, LSTM 기반으로 69.8%의 Jaccard 점수를 기록했다.
모든 모델에서 LSTM 기반 시간적 파이프라인은 HMM 기반 파이프라인을 초월했으며, EndoNet-Cholec80에 의한 LSTM 기반 모델이 최고의 Jaccard 점수 69.8%를 기록했다.
PhaseNet-m2cai16는 HMM 기반으로 64.1%의 Jaccard 점수, LSTM 기반으로 54.8%의 점수를 기록하여, LSTM 파이프라인이 이 모델에서는 성능이 열 劣한 것으로 나타났다. 이는 하이퍼파rameter가 최적화되지 않았을 가능성이 높다.
Cholec80와 m2cai16-workflow 간 단계 정의의 불일치에도 불구하고, 다중 작업 EndoNet은 여전히 잘 일반화되었으며, 이는 공동 학습이 특징의 구분 능력을 향상시킨다는 것을 시사한다.
PhaseNet-m2cai16에서 LSTM 파이프라인의 성능 저하 현상은 하이퍼파rameter 튜닝의 중요성을 보여주며, 전이 학습 성능가 아키텍처 및 훈련 설정에 매우 민감함을 시사한다.
결과는 CNN과 LSTM을 별도로 훈련하는 것이 가능하고 효과적이며, 메모리 제약으로 인해 엔드 투 엔드 훈련은 여전히 도전 과제임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.