QUICK REVIEW

[論文レビュー] Self-Supervised Surgical Tool Segmentation using Kinematic Information

Cristian da Costa Rocha, Nicolas Padoy|arXiv (Cornell University)|Feb 13, 2019

Soft Robotics and Applications参考文献 37被引用数 42

ひとこと要約

論文は、ロボットの運動学モデルを用いて訓練ラベルを生成する自己教師あり方法SSTSを提案しており、手動アノテーションなしでほぼ完全監視学習と同等の性能を達成する。

ABSTRACT

Surgical tool segmentation in endoscopic images is the first step towards\npose estimation and (sub-)task automation in challenging minimally invasive\nsurgical operations. While many approaches in the literature have shown great\nresults using modern machine learning methods such as convolutional neural\nnetworks, the main bottleneck lies in the acquisition of a large number of\nmanually-annotated images for efficient learning. This is especially true in\nsurgical context, where patient-to-patient differences impede the overall\ngeneralizability. In order to cope with this lack of annotated data, we propose\na self-supervised approach in a robot-assisted context. To our knowledge, the\nproposed approach is the first to make use of the kinematic model of the robot\nin order to generate training labels. The core contribution of the paper is to\npropose an optimization method to obtain good labels for training despite an\nunknown hand-eye calibration and an imprecise kinematic model. The labels can\nsubsequently be used for fine-tuning a fully-convolutional neural network for\npixel-wise classification. As a result, the tool can be segmented in the\nendoscopic images without needing a single manually-annotated image.\nExperimental results on phantom and in vivo datasets obtained using a flexible\nrobotized endoscopy system are very promising.\n

研究の動機と目的

手術ツールのセグメンテーションにおける注釈付きデータの不足に対して、ロボットの運動学をラベリング信号として活用する。
運動学/モデルの誤差にもかかわらず有用な手眼変換を推定する方法を開発する。
自己生成ラベルを用いてピクセル単位のセグメンテーションを実行するため、軽量なFCNをオンラインで微調整する。
ファントムおよび生体在データセットを、フレキシブル連続ロボットを用いて検証する。

提案手法

モデルベースのラベル生成: 変換Tと運動学モデルを用いてロボットを画像内へ射影し、射影ラベルy(q, T)を得る。
Grabcutベースの最適化: SE3上でTを最適化し、Grabcut出力と射影ラベル間のF'1スコアを最大化する確率的ブランチ＆ボウンス探索。
2段階ワークフロー: (i) モデル射影と画像観測を整合させる最適T*を計算、(ii) 得られた射影を用いてピクセル単位のセグメンテーションを行うFully Convolutional Network (FCN)を訓練。
FCNアーキテクチャ: ResNet18ベースのバックボーンと2つのアップサンプリング経路でピクセル毎のスコアを出力、重み付き交差エントロピー損失とL2正則化で学習。
オンライン微調整: データ拡張とエンドツーエンドの訓練を行い、FCNを特定の手術・撮像条件に適応させる。
後処理: Conditional Random Fieldsを適用してFCNのセグメンテーション出力を refine。

実験結果

リサーチクエスチョン

RQ1ロボットの運動学モデルを用いた自己教師付きアプローチは、手動アノテーションなしに外科用ツールのセグメンテーションの信頼できるラベルを生成できるか。
RQ2Kinematicおよび較正誤差がある状況でGrabcutベースのコスト関数を用いて手眼変換をどれだけ効果的に最適化できるか。
RQ3自己生成ラベルを用いたFCNの微調整は、ファントムおよび生体データで完全監視学習の性能に近づくか。
RQ4生体内データでの内視鏡ドメイン前訓練は、セグメンテーション性能にどのような影響を与えるか。

主な発見

データセット	アプローチ	正解率	IoU	再現率	適合率
Phantom 1	SSTS	0.99	0.86	0.90	0.92
Phantom 1	FSL	0.99	0.87	0.92	0.93
Phantom 1	Grabcut	0.97	0.56	0.86	0.61
Phantom 2	SSTS	0.98	0.78	0.88	0.87
Phantom 2	FSL	0.98	0.84	0.88	0.94
Phantom 2	Grabcut	0.95	0.49	0.66	0.66
In Vivo	SSTS	0.97	0.62	0.66	0.91
In Vivo	FSL	0.98	0.72	0.73	0.98
In Vivo	Grabcut	0.96	0.55	0.73	0.69

Grabcutベースのコストを用いたT*の最適化は、ファントムおよび生体データセット全体でGTとのIoUと相関し、グラウンドトゥルースなしで意味のあるラベルを実現する。
SSTSの性能は、ファントム1・ファントム2・生体データセット全体でほぼ完全監視学習と近いIoU・リコール・適合率を示す。
ファントム1では、SSTSは0.99の精度と0.86のIoUを達成し、FSLの0.99精度・0.87IoUに近い。
ファントム2では、SSTSは0.98の精度と0.78のIoUを達成し、FSLの0.98精度・0.84IoUに近い。
生体データでは、SSTSは0.97の精度と0.62のIoUを達成し、FSLは0.98の精度と0.72のIoU。GrabcutのベースラインはIoUが著しく低い。
内視鏡ドメインの微調整は、ImageNet前訓練と比較してROC性能を改善し、内視鏡データに対するドメイン特化前訓練の利点を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。