[論文レビュー] Learning from a tiny dataset of manual annotations: a teacher/student approach for surgical phase recognition
本論文は、CNN-biLSTM-CRF teacher を用いて無注 annotated 動画に対して合成ラベルを生成し、リアルタイム CNN-LSTM student を訓練する、教師-生徒型の半教師付きフレームワークを手術段階認識に適用し、非常に少数の注釈でも性能が向上することを示す。
Vision algorithms capable of interpreting scenes from a real-time video stream are necessary for computer-assisted surgery systems to achieve context-aware behavior. In laparoscopic procedures one particular algorithm needed for such systems is the identification of surgical phases, for which the current state of the art is a model based on a CNN-LSTM. A number of previous works using models of this kind have trained them in a fully supervised manner, requiring a fully annotated dataset. Instead, our work confronts the problem of learning surgical phase recognition in scenarios presenting scarce amounts of annotated data (under 25% of all available video recordings). We propose a teacher/student type of approach, where a strong predictor called the teacher, trained beforehand on a small dataset of ground truth-annotated videos, generates synthetic annotations for a larger dataset, which another model - the student - learns from. In our case, the teacher features a novel CNN-biLSTM-CRF architecture, designed for offline inference only. The student, on the other hand, is a CNN-LSTM capable of making real-time predictions. Results for various amounts of manually annotated videos demonstrate the superiority of the new CNN-biLSTM-CRF predictor as well as improved performance from the CNN-LSTM trained using synthetic labels generated for unannotated videos. For both offline and online surgical phase recognition with very few annotated recordings available, this new teacher/student strategy provides a valuable performance improvement by efficiently leveraging the unannotated data.
研究の動機と目的
- 手動で注釈されたビデオデータが非常に限られているという手術段階認識の課題に対処する。
- 強力なオフライン予測子が未注釈ビデオに対して合成ラベルを生成する教師/生徒フレームワークを提案する。
- 合成ラベルがリアルタイムの CNN-LSTM student の性能を向上させ、完全監視ベースの基準に近づくことを実証する。
- 同じフレームワーク内でオフライン推論とオンライン推論の能力を比較する。
提案手法
- オフライン推論のための CNN-biLSTM-CRF 教師を導入し、合成注釈を出力する。
- Frames から 2048-d の視覚特徴を抽出するために ResNet-50 v2 CNN を使用する。
- 未来の文脈を捉える双方向 LSTM を組み込み、相変化をモデル化する線形連結 CRF を導入する。
- ground-truth および教師生成ラベル(G_{i,j})の混合データセットを用いてリアルタイム予測のための CNN-LSTM student を訓練する。
- 教師でのバックプロパゲーションを通じたデータ拡張とエンドツーエンド訓練を適用する。
- 7 つのフェーズラベルを持つ cholec120 データセット上でサイズが 1–80 の複数のミニ訓練セットを評価する。
実験結果
リサーチクエスチョン
- RQ1 scarce annotations で訓練された教師モデルは手術段階認識で未注釈ビデオに対して有用な合成ラベルを生成できるか?
- RQ2教師生成ラベリングアプローチは、わずかな Ground-truth データのみで訓練する場合と比べてリアルタイム CNN-LSTM student の性能を改善するか?
- RQ3注釈データが増えるとき semi-supervised 訓練アプローチはどれくらい fully supervised 訓練の性能に近づくか?
- RQ4教師のアーキテクチャ(CNN-biLSTM-CRF)対より単純なモデルがオフラインおよびオンラインの予測性能に与える影響はどれほどか?
主な発見
- CNN-biLSTM-CRF 教師は Ablated バリアントよりも優れており、オフラインモデルの中で最も強い予測力を示す。
- 教師生成合成ラベルで訓練された CNN-LSTM は ground-truth のみで訓練する場合よりも大幅に改善し、データギャップを縮小する。
- manual による注釈ビデオをわずか 20 本用意しただけで、CNN-biLSTM-CRF はテストセットで 84.1% accuracy、75.8% F1 を達成し、完全監視訓練の 89.5% accuracy、82.5% F1 に近づく。
- 教師生成アノテーションの品質は手動で注釈されたビデオが多いほど向上し、G_{i,j} セットを学生の訓練に対してより実用的にする。
- 合成ラベルを用いることで、20 本と 80 本の Ground-truth ビデオ間のギャップは CNN-LSTM online predictor で半減され、学生を offline predictor に置き換えれば完全に閉じることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。