QUICK REVIEW

[論文レビュー] Unsupervised identification of surgical robotic actions from small non homogeneous datasets

Daniele Meli, Paolo Fiorini|arXiv (Cornell University)|May 18, 2021

Surgical Simulation and Training参考文献 49被引用数 17

ひとこと要約

本論文は、dVRKリング移動タスクからのキネマティックおよび意味的視覚特徴を統合して、小規模で非一様なデータセットにおける手術用ロボット行動の識別を目的とした新規な非教師ありアルゴリズムを提案する。幾何的特徴抽出と頑健なクラスタリングを活用することで、ノイズ、短時間の行動、可変な手順に対しても、先行研究（24%）を著しく上回る58%のF1スコアを達成する。

ABSTRACT

Robot-assisted surgery is an established clinical practice. The automatic identification of surgical actions is needed for a range of applications, including performance assessment of trainees and surgical process modeling for autonomous execution and monitoring. However, supervised action identification is not feasible, due to the burden of manually annotating recordings of potentially complex and long surgical executions. Moreover, often few example executions of a surgical procedure can be recorded. This paper proposes a novel fast algorithm for unsupervised identification of surgical actions in a standard surgical training task, the ring transfer, executed with da Vinci Research Kit. Exploiting kinematic and semantic visual features automatically extracted from a very limited dataset of executions, we are able to significantly outperform state-of-the-art results on a dataset of non-expert executions (58\% vs. 24\% F1-score), and improve performance in the presence of noise, short actions and non-homogeneous workflows, i.e. non repetitive action sequences.

研究の動機と目的

小規模で非一様な手術データセットにおけるスケーラブルで正確な非教師あり行動同定の欠如に対処する。
短時間の行動、ノイズデータ、可変な手順的フローを扱う際の従来手法の限界を克服する。
手動アノテーションを一切不要とする、キネマティックおよび意味的視覚特徴の統合による頑健な行動認識を実現する。
解剖学的および手順的ばらつきを伴う実世界の手術訓練データにおける性能向上を図る。

提案手法

エンドエフェクタ位置、オイラー角（クaternion表記）、グリッパー角度を含む16のキネマティック特徴をdVRKロボットの軌道から抽出する。
色セグメンテーションとRANSACベースの形状認識を用いて、RGB-D動画フレームから幾何的特徴（リング/ペグ位置、ベース中心、リング半径）を自動で検出する。
2段階のアプローチを採用：まず、新規なセグメンテーション手法により実行トレース内の変化点を同定し、次にk-NN分類法を用いてハイブリッド特徴ベクトルでセグメントをクラスタリングする。
キネマティックおよび意味的視覚特徴（例：リング位置、ペグ占有状態）を組み合わせた特徴配列を作成し、行動分類の頑健性を向上させる。
k=21を用いて頑健性を確保するk-NN分類法を適用し、各行動タイプに特化した特徴配列（例：move(A,center,C) に対して [f1,f2,f3]）を用いる。
恒常的分析や動的時間適合（DTW）といった計算コストの高い手法への依存を最小限に抑え、計算効率を最適化する。

実験結果

リサーチクエスチョン

RQ1可変な手順的フローを伴う小規模で非一様な手術データセットにおいて、非教師あり行動同定を効果的に行うことができるか？
RQ2意味的視覚特徴を組み込むことで、キネマティック特徴のみのアプローチに比べ、行動認識の正確性がどの程度向上するか？
RQ3本手法は短時間の行動、ノイズデータ、レアな行動シーケンスに対し、どの程度一般化可能か？
RQ4本アルゴリズムは、臨床および訓練用途に適したリアルタイム性能を達成できるか？

主な発見

本手法は、わずか4回の実行しか行われていない非一様なデータセットにおいても、58%のF1スコアを達成し、最先端手法（24%のF1スコア）を著しく上回る。
挑戦的な「extract」行動に関しては、77%のF1スコアと100%の適合率を達成したが、先行研究ではわずか12.5%のF1スコアにとどまっていた。
「move(A,center,C)」行動のF1スコアは40%に向上（先行研究では28.57%）したが、この行動はデータセット全体でたった5回しか出現していない。
1回の実行あたりの計算時間を0.45秒（最大0.58秒）にまで短縮し、より高速なハードウェアを用いた先行手法が最大5秒を要するのに対し、優れた性能を発揮した。
意味的視覚特徴の導入によりキネマティックのばらつきを補償でき、ノイズや短時間の行動期間に対しても頑健な分類が可能になった。
低頻度のキネマティックノイズを含む10回の実行を含むデータセットでも、クリーンなデータセットと同等の性能を維持した。これにより、本手法の頑健性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。