[論文レビュー] Single- and Multi-Task Architectures for Surgical Workflow Challenge at M2CAI 2016
本稿では、胆嚢切除手術動画における手術フェーズ認識のため、時間的モデリングとしてHMMおよびLSTMを組み合わせた、単一タスクおよびマルチタスクの深層学習アーキテクチャ(PhaseNetおよびEndoNet)を提案する。マルチタスクのEndoNetは、ツール存在のアノテーションを含むCholec80で事前学習されたものであり、M2CAI 2016チャレンジで単一タスクモデルを上回る性能を示した。また、マルチタスクネットワークからの特徴量を用いたLSTMベースの時間的パイプラインは、HMM(67.7%)よりも優れたJaccardスコア(69.8%)を達成した。
The surgical workflow challenge at M2CAI 2016 consists of identifying 8 surgical phases in cholecystectomy procedures. Here, we propose to use deep architectures that are based on our previous work where we presented several architectures to perform multiple recognition tasks on laparoscopic videos. In this technical report, we present the phase recognition results using two architectures: (1) a single-task architecture designed to perform solely the surgical phase recognition task and (2) a multi-task architecture designed to perform jointly phase recognition and tool presence detection. On top of these architectures we propose to use two different approaches to enforce the temporal constraints of the surgical workflow: (1) HMM-based and (2) LSTM-based pipelines. The results show that the LSTM-based approach is able to outperform the HMM-based approach and also to properly enforce the temporal constraints into the recognition process.
研究の動機と目的
- ラミネクトミー動画における手術フェーズ認識を、深層学習アーキテクチャを用いて行う。
- マルチタスク学習(フェーズとツール検出の同時学習)が、単一タスク学習と比較してフェーズ認識性能を向上させるかを調査する。
- 時間的モデリングとしてHMMおよびLSTMを用いることで、フレーム単位の予測に手術プロトコルの制約を強制する有効性を評価する。
- 異なるフェーズ定義を持つデータセット(m2cai16-workflowおよびCholec80)で微調整された、さまざまなCNNアーキテクチャ(PhaseNet、EndoNet)の性能を比較する。
- メモリ制約を考慮した場合、CNNとLSTMを別々に訓練する方が、エンドツーエンド訓練よりも優れた結果をもたらすかを検討する。
提案手法
- 事前学習済みのAlexNetを微調整し、フェーズ認識用に単一タスクのPhaseNetおよびマルチタスクのEndoNetアーキテクチャを構築した。
- 以降の時間的モデリングの入力として、畳み込みニューラルネットワークの直前層(PhaseNetではfc7、EndoNetではfc8)からの画像特徴量を用いた。
- HMMおよびLSTMパイプラインの両方において、CNN特徴量からフェーズの信頼度スコアを計算するために、ワン・ビズ・オール線形SVMを適用した。
- 時間的整合性を強制するために、データ駆動型のボトムレベル状態と出力モデリングにガウス混合モデルを用いた階層的HMM(HHMM)を採用した。
- 抽出されたCNN特徴量を入力とし、最終的なフェーズ分類に8ノードの全結合層を用いた、1024個の隠れ状態を持つLSTMネットワークを訓練した。
- メモリ制約のため、CNNとLSTMネットワークを別々に訓練した。LSTMは、3993フレーム(1fps)にパディングされた全動画シーケンスを対象に訓練した。
実験結果
リサーチクエスチョン
- RQ1関連タスク(ツール存在検出)におけるマルチタスク事前学習が、フェーズ定義が異なるターゲットデータセットにおけるフェーズ認識性能を向上させるか?
- RQ2LSTMベースの時間的モデリングが、HMMベースのモデルよりもフレーム単位の予測に手術プロトコルの制約をより効果的に強制できるか?
- RQ3ターゲットデータセット(m2cai16-workflow)で微調整されたモデルと、異なるフェーズ定義を持つ別のデータセット(Cholec80)で事前学習されたモデルの性能は、どのように比較されるか?
- RQ4CNNアーキテクチャの選択(単一タスク対マルチタスク)が、後続の時間的モデリングの性能に顕著に影響を与えるか?
- RQ5異なるデータセット間で移行する際、LSTMパイプラインにおけるハイパーパrameterの選択が、認識性能にどの程度影響を与えるか?
主な発見
- Cholec80(7フェーズ)で事前学習されたマルチタスクのEndoNetは、m2cai16-workflow(8フェーズ)で微調整された単一タスクのPhaseNetを上回り、HMMを用いた場合67.7%、LSTMを用いた場合69.8%のJaccardスコアを達成した。
- すべてのモデルにおいて、LSTMベースの時間的パイプラインがHMMベースのパイプラインを上回った。特に、EndoNet-Cholec80にLSTMを適用した場合、最高のJaccardスコア69.8%を達成した。
- PhaseNet-m2cai16は、HMMを用いた場合64.1%、LSTMを用いた場合54.8%のJaccardスコアを示した。これは、LSTMパイプラインがこのモデルでは性能を発揮できなかったことを示しており、おそらく最適でないハイパーパrameterが原因であると考えられる。
- Cholec80とm2cai16-workflowの間でフェーズ定義に不一致があったにもかかわらず、マルチタスクのEndoNetは良好に一般化した。これは、共同学習が特徴の識別能を向上させる可能性を示唆している。
- PhaseNet-m2cai16におけるLSTMパイプラインの性能低下は、ハイパーパrameterチューニングが極めて重要であり、トランスファー学習の性能がアーキテクチャおよびトレーニング設定に敏感である可能性を示している。
- 結果から、CNNとLSTMを別々に訓練する方法が実用的かつ効果的であることが示されたが、メモリ制限のためエンドツーエンド訓練は依然として困難である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。