QUICK REVIEW

[논문 리뷰] Self-Supervised Surgical Tool Segmentation using Kinematic Information

Cristian da Costa Rocha, Nicolas Padoy|arXiv (Cornell University)|2019. 02. 13.

Soft Robotics and Applications참고 문헌 37인용 수 42

한 줄 요약

본 논문은 SSTS를 제시한다. 이는 로봇의 운동학 모델을 사용해 FCN 기반 수술 도구 세분화를 위한 학습 라벨을 생성하는 자기지도(self-supervised) 방법으로, 수동 주석 없이 거의 완전한 감독 학습 수준의 성능에 근접하게 달성한다.

ABSTRACT

Surgical tool segmentation in endoscopic images is the first step towards pose estimation and (sub-)task automation in challenging minimally invasive surgical operations. While many approaches in the literature have shown great results using modern machine learning methods such as convolutional neural networks, the main bottleneck lies in the acquisition of a large number of manually-annotated images for efficient learning. This is especially true in surgical context, where patient-to-patient differences impede the overall generalizability. In order to cope with this lack of annotated data, we propose a self-supervised approach in a robot-assisted context. To our knowledge, the proposed approach is the first to make use of the kinematic model of the robot in order to generate training labels. The core contribution of the paper is to propose an optimization method to obtain good labels for training despite an unknown hand-eye calibration and an imprecise kinematic model. The labels can subsequently be used for fine-tuning a fully-convolutional neural network for pixel-wise classification. As a result, the tool can be segmented in the endoscopic images without needing a single manually-annotated image. Experimental results on phantom and in vivo datasets obtained using a flexible robotized endoscopy system are very promising.

연구 동기 및 목표

로봇의 운동학을 시 labeling 신호로 활용하여 수술 도구 세분화에서 주석 데이터 부족 문제를 해결한다.
운동학/모델 오류에도 불구하고 유용한 핸드-아이 변환을 추정하는 방법을 개발한다.
자기 생성 라벨을 사용하여 픽셀 단위 세분화를 수행하기 위해 경량 FCN을 온라인으로 미세조정한다.
유연한 연속로봇을 이용한 팬텀 및 인체 내(endoscopic) 데이터셋에서 접근법을 검증한다.

제안 방법

모델 기반 라벨 생성: 트랜스폼 T와 운동학 모델을 사용해 로봇과 추정 형상을 이미지에 투영하여 투영 라벨 y(q, T)를 얻는다.
Grabcut 기반 최적화: 확률적 분기-경계 탐색으로 SE3에서 T를 최적화해 Grabcut 출력과 투영 라벨 사이의 F'1 점수를 최대화한다.
두 단계 워크플로우: (i) 모델 투영이 영상 관찰과 일치하도록 T*를 계산하고, (ii) 이로부터 얻은 투영을 사용해 픽셀 단위 세분화를 위한 Fully Convolutional Network (FCN)를 학습한다.
FCN 아키텍처: ResNet18 기반 백본에 두 개의 업샘플링 경로를 두어 픽셀 단위 점수를 산출하고 가중 교차 엔트로피 손실과 L2 정규화로 학습한다.
온라인 미세조정: 데이터 증강 및 엔드-투-엔드 학습을 수행해 FCN을 특정 수술 및 영상 조건에 맞게 적응시킨다.
후처리: FCN 세분화 출력을 다듬기 위해 Conditional Random Fields를 적용한다.

실험 결과

연구 질문

RQ1로봇의 운동학 모델을 활용한 자기지도 방식이 수동 주석 없이도 수술 도구 세분화를 위한 신뢰할 만한 라벨을 생성할 수 있는가?
RQ2운동학 및 보정 오류가 존재하는 상황에서 Grabcut 기반 비용 함수를 사용해 핸드-아이 변환을 얼마나 효과적으로 최적화할 수 있는가?
RQ3자기 생성 라벨로 FCN 미세조정이 팬텀 및 인체 내 데이터에서 완전 감독 학습의 성능에 근접하는가?
RQ4도전적인 인바이고 시나리오에서 내시경 도메인 사전 학습이 세분화 성능에 미치는 영향은 무엇인가?

주요 결과

Dataset	Approach	Accuracy	IoU	Recall	Precision
Phantom 1	SSTS	0.99	0.86	0.90	0.92
Phantom 1	FSL	0.99	0.87	0.92	0.93
Phantom 1	Grabcut	0.97	0.56	0.86	0.61
Phantom 2	SSTS	0.98	0.78	0.88	0.87
Phantom 2	FSL	0.98	0.84	0.88	0.94
Phantom 2	Grabcut	0.95	0.49	0.66	0.66
In Vivo	SSTS	0.97	0.62	0.66	0.91
In Vivo	FSL	0.98	0.72	0.73	0.98
In Vivo	Grabcut	0.96	0.55	0.73	0.69

Grabcut 기반 비용으로 T*를 최적화하면 팬텀과 인바이고 데이터 세트 전반에서 GT와의 IoU와 상관관계가 나타나 실제 지표를 갖는 라벨을 ground truth 없이 가능하게 한다.
SSTS 성능은 팬텀 1, 팬텀 2 및 인바이고 데이터 세트 전반에서 완전 감독 학습에 근접하며 IoU, 재현율, 정밀도 지표가 비슷하다.
팬텀 1에서 SSTS는 0.99 정확도 및 0.86 IoU를 달성하고, FSL은 0.99 정확도 및 0.87 IoU로 근접한다.
팬텀 2에서 SSTS는 0.98 정확도 및 0.78 IoU를 달성하고, FSL은 0.98 정확도 및 0.84 IoU로 근접한다.
인체 내 데이터에서 SSTS는 0.97 정확도 및 0.62 IoU를 달성하고, FSL은 0.98 정확도 및 0.72 IoU이며; Grabcut 기반 기준은 현저히 낮은 IoU를 보인다.
내시경 도메인 미세조정은 ImageNet 사전 학습 대비 ROC 성능을 향상시키며, 내시경 데이터에 대한 도메인 특화 사전 학습의 이점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.