Skip to main content
QUICK REVIEW

[論文レビュー] 2017 Robotic Instrument Segmentation Challenge

Max Allan, Alexey A. Shvets|arXiv (Cornell University)|Feb 18, 2019
Anatomy and Medical Technology参考文献 29被引用数 56
ひとこと要約

MICCAI 2017 チャレンジで、10 データセットにわたる da Vinci ロボット機器の手動ラベル付きマルチタスクセグメンテーションを提示し、二値、部位別、タイプ別のセグメンテーション課題と複数の参加手法を含む。

ABSTRACT

In mainstream computer vision and machine learning, public datasets such as ImageNet, COCO and KITTI have helped drive enormous improvements by enabling researchers to understand the strengths and limitations of different algorithms via performance comparison. However, this type of approach has had limited translation to problems in robotic assisted surgery as this field has never established the same level of common datasets and benchmarking methods. In 2015 a sub-challenge was introduced at the EndoVis workshop where a set of robotic images were provided with automatically generated annotations from robot forward kinematics. However, there were issues with this dataset due to the limited background variation, lack of complex motion and inaccuracies in the annotation. In this work we present the results of the 2017 challenge on robotic instrument segmentation which involved 10 teams participating in binary, parts and type based segmentation of articulated da Vinci robotic instruments.

研究の動機と目的

  • 機器のセグメンテーションを通じて、ロボット支援小開腹手術におけるシーン理解を促進する。
  • 公正な手法比較を可能にするために、手動ラベル付きの高品質で多様なデータセットを提供する。
  • 複数の機器と手技にわたる二値、部位ベース、タイプベースのセグメンテーションを評価する。
  • ガイダンスやARオーバーレイに適したリアルタイムまたはほぼリアルタイムのセグメンテーション手法の開発を促進する。

提案手法

  • 三つのサブタスク: 器具と背景の二値セグメンテーション、部位セグメンテーション(シャフト、リスト、ジョー)、およびタイプベースのセグメンテーション(器具の種類)。
  • 10 件の豚腹部手技から収集されたデータセットで、各シーケンスは 300 フレーム、最初の 225 フレームを訓練、後半の 75 フレームをテスト。左眼ステレオ画像を提供。
  • Intuitive Surgical セグメンテーションチームによって、フレームごとのポリゴンを用いて手動で作成されたグラウンドトゥルースラベル。
  • 11 チームが参加し、FCN/UNet系、TernausNet、SegNet、手作りベースラインなど、様々な CNN ベースのアプローチを提供。
  • フレームごとに現れるクラス間の平均 IoU を基に評価し、データセット加重の総合スコアを算出。
  • いくつかのチームは事前学習済みエンコーダ(VGG、ResNet 系)やマルチスケール/カスケード構造を用いて精度を向上させた。

実験結果

リサーチクエスチョン

  • RQ1最先端のセグメンテーションアーキテクチャは、ロボット手術画像における二値の器具セグメンテーションでどれだけ良い性能を発揮できるか?
  • RQ2手動ラベル付きで多様な外科データから、マルチタスク(二値・部位・タイプ)セグメンテーションを効果的に学習できるか?
  • RQ3データの多様性(訓練シーケンス8、テストシーケンス10)が、データセット間の一般化に与える影響は?
  • RQ4タスクおよびデータセット間の平均 IoU の観点で、異なるネットワークアーキテクチャと訓練戦略はどのように比較されるか?

主な発見

データセット1データセット2データセット3データセット4データセット5データセット6データセット7データセット8データセット9データセット10Mean IoU
NCT 0.784NCT 0.788NCT 0.926NCT 0.934NCT 0.701NCT 0.876NCT 0.846NCT 0.881NCT 0.789NCT 0.8990.843
UB 0.807UB 0.806UB 0.914UB 0.925UB 0.740UB 0.890UB 0.930UB 0.904UB 0.855UB 0.9170.875
BIT 0.275BIT 0.282BIT 0.455BIT 0.310BIT 0.220BIT 0.338BIT 0.404BIT 0.366BIT 0.236BIT 0.4030.326
MIT 0.854MIT 0.794MIT 0.949MIT 0.949MIT 0.862MIT 0.922MIT 0.856MIT 0.937MIT 0.865MIT 0.9050.888
SIAT 0.625SIAT 0.669SIAT 0.897SIAT 0.907SIAT 0.604SIAT 0.843SIAT 0.832SIAT 0.513SIAT 0.839SIAT 0.8990.803
UCL 0.631UCL 0.645UCL 0.895UCL 0.883UCL 0.719UCL 0.852UCL 0.710UCL 0.517UCL 0.808UCL 0.8690.785
TUM 0.760TUM 0.799TUM 0.916TUM 0.915TUM 0.810TUM 0.873TUM 0.844TUM 0.895TUM 0.877TUM 0.9090.873
UA 0.408UA 0.524UA 0.743UA 0.782UA 0.528UA 0.292UA 0.593UA 0.562UA 0.626UA 0.7150.612
UW 0.413UW 0.463UW 0.703UW 0.751UW 0.375UW 0.667UW 0.362UW 0.797UW 0.539UW 0.6890.681
Mean IoU 0.5890.6060.7880.8030.5780.7170.6700.6880.6810.781
  • MIT は 10 データセット全体で二値セグメンテーションの平均 mean IoU が最も高く、0.854 を記録。
  • 全データセットとチームに対する二値セグメンテーションの平均 IoU は、MIT 0.888、UB 0.875 などで、他は変動(表 I を参照)。
  • 部位セグメンテーションでは MIT が 10 データセット中 7 件で最高の mean IoU を達成し、MIT の総合 mean IoU は 0.737(表 II)。
  • タイプベースのセグメンテーションでは複数チームの参加が低く、全体の mean IoU も変動(表 VI)。
  • 全体として、事前学習済みエンコーダとマルチスケールまたはカスケード設計を組み合わせた深層学習アーキテクチャが最も良い成績を示し、単純なベースラインや非ML手法は一部のフレームで競争力があった(例: UW ベースライン)。
  • このチャレンジは、ロボット機器セグメンテーションの進展を促すために、高品質で手動ラベル付けされたデータと多様な背景変動の必要性を強調した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。