QUICK REVIEW

[論文レビュー] Unsupervised temporal context learning using convolutional neural networks for laparoscopic workflow analysis

Sebastian Bodenstedt, Martin Wagner|arXiv (Cornell University)|Feb 13, 2017

Colorectal Cancer Screening and Detection参考文献 13被引用数 24

ひとこと要約

本論文は、手動アノテーションを一切用いずに、ラパロスコピック動画フレームから時間的文脈を学習するための教師なし事前学習手法を提案する。ラベルなし動画から抽出した画像ペアの時間的順序を予測するようにCNNを訓練することで、手術プロセス分離に有用な特徴を学習し、最小限の監視のもとで胆嚢切除および大腸手術データセットで最先端の性能を達成した。

ABSTRACT

Computer-assisted surgery (CAS) aims to provide the surgeon with the right type of assistance at the right moment. Such assistance systems are especially relevant in laparoscopic surgery, where CAS can alleviate some of the drawbacks that surgeons incur. For many assistance functions, e.g. displaying the location of a tumor at the appropriate time or suggesting what instruments to prepare next, analyzing the surgical workflow is a prerequisite. Since laparoscopic interventions are performed via endoscope, the video signal is an obvious sensor modality to rely on for workflow analysis. Image-based workflow analysis tasks in laparoscopy, such as phase recognition, skill assessment, video indexing or automatic annotation, require a temporal distinction between video frames. Generally computer vision based methods that generalize from previously seen data are used. For training such methods, large amounts of annotated data are necessary. Annotating surgical data requires expert knowledge, therefore collecting a sufficient amount of data is difficult, time-consuming and not always feasible. In this paper, we address this problem by presenting an unsupervised method for training a convolutional neural network (CNN) to differentiate between laparoscopic video frames on a temporal basis. We extract video frames at regular intervals from 324 unlabeled laparoscopic interventions, resulting in a dataset of approximately 2.2 million images. From this dataset, we extract image pairs from the same video and train a CNN to determine their temporal order. To solve this problem, the CNN has to extract features that are relevant for comprehending laparoscopic workflow. Furthermore, we demonstrate that such a CNN can be adapted for surgical workflow segmentation. We performed image-based workflow segmentation on a publicly available dataset of 7 cholecystectomies and 9 colorectal interventions.

研究の動機と目的

手術プロセス分析モデルの学習に必要なラベル付きラパロスコピック動画データの限界を解決する。
熟練医のアノテーションを必要とせず、ラベルなしラパロスコピック動画から時間的表現を学習する手法を開発する。
自己教師付き事前学習を用いて、転移学習を可能にし、手術フェーズ検出などの下流タスクに応用する。
胆嚢切除とは異なり、複雑で長時間にわたる介入である大腸手術のような状況において、本手法の有効性を示す。

提案手法

324件のラベルなしラパロスコピック手術で、220万フレームを一定間隔で抽出した。
同じ動画シーケンスから得た画像ペアを用い、二値分類タスクとして「どちらのフレームが時間的に前か」を予測する。
この画像ペアの時間的順序を分類するように、CNNをエンドツーエンドで訓練し、区別可能な空間時間的特徴を学習させる。
時間的依存関係をモデル化するため、GRUベースのアーキテクチャを用いて、事前学習済みCNNを微調整し、手術フェーズ分離に応用した。
事前学習済み特徴と再帰的モデリングを組み合わせることで、フェーズ検出タスクの性能を向上させた。
2つの公開データセット（7例の胆嚢切除、9例の大腸手術）を用いて評価し、フェーズレベルでの性能報告を実施した。

実験結果

リサーチクエスチョン

RQ1手動アノテーションが一切ない状態で、CNNがラパロスコピック動画から意味のある時間的表現を学習できるか？
RQ2時間的順序予測の教師なし事前学習が、手術フェーズ分離タスクの性能向上に寄与するか？
RQ3少量のラベル付きデータしか利用できない状況で、本手法は教師ありベースラインと比較して優れているか？
RQ4高用量の医師差が生じる大腸手術のような複雑で標準化されていない介入に対しても、事前学習済みモデルは汎用性を持つか？
RQ5事前学習済み特徴の上に再帰的モデリング（例：GRU）を組み込むことで、順序的なプロセス分析にどのような影響を与えるか？

主な発見

教師なし事前学習手法は、公開の胆嚢切除データセットで最先端の性能を達成し、Dergachyovaらの手法および完全にCNNベースのEndoNetを上回った。
大腸手術データセットでは、ランダムに初期化されたCNNと比較して、事前学習済みモデルが顕著に優れた性能を示し、医師間の変動が大きいにもかかわらず、転移性が確認された。
事前学習済み特徴とGRUベースのアーキテクチャを組み合わせた手法が最も高い性能を示し、胆嚢切除データセットでは平均F1スコア80.8%、大腸手術データセットのフェーズP6では88.2%を達成した。
大腸手術データセットのフェーズ4およびフェーズ7は、それぞれ57.7%および55.7%のF1スコアにとどまり、短時間の持続と隣接フェーズとの混同が主な要因であった。
手間のかかる手動アノテーションに依存することを減らし、時間的順序のみを教師信号として活用することで、大規模なラベルなしデータに対する効果的な事前学習が可能になった。
最終全結合層（fc6）の出力は、手術動画データベースにおける動画インデキシングおよび検索タスクのためのコンactかつ意味のある表現として利用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。