Skip to main content
QUICK REVIEW

[論文レビュー] Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures

Kun Yuan, Vinkle Srivastav|arXiv (Cornell University)|Jul 27, 2023
Multimodal Machine Learning Applications被引用数 9
ひとこと要約

SurgVLP は、二重 ASR トランスクリプトとコントラスト学習を用いて外科ビデオ講義から視覚-テキストの表現を学習し、マニュアルラベルなしでゼロショットのビジョン-ランゲージおよびビジョンのみの外科タスクを可能にします。

ABSTRACT

Recent advancements in surgical computer vision applications have been driven by vision-only models, which do not explicitly integrate the rich semantics of language into their design. These methods rely on manually annotated surgical videos to predict a fixed set of object categories, limiting their generalizability to unseen surgical procedures and downstream tasks. In this work, we put forward the idea that the surgical video lectures available through open surgical e-learning platforms can provide effective vision and language supervisory signals for multi-modal representation learning without relying on manual annotations. We address the surgery-specific linguistic challenges present in surgical video lectures by employing multiple complementary automatic speech recognition systems to generate text transcriptions. We then present a novel method, SurgVLP - Surgical Vision Language Pre-training, for multi-modal representation learning. Extensive experiments across diverse surgical procedures and tasks demonstrate that the multi-modal representations learned by SurgVLP exhibit strong transferability and adaptability in surgical video analysis. Furthermore, our zero-shot evaluations highlight SurgVLP's potential as a general-purpose foundation model for surgical workflow analysis, reducing the reliance on extensive manual annotations for downstream tasks, and facilitating adaptation methods such as few-shot learning to build a scalable and data-efficient solution for various downstream surgical applications. The [training code](https://github.com/CAMMA-public/PeskaVLP) and [weights](https://github.com/CAMMA-public/SurgVLP) are public.

研究の動機と目的

  • 大規模なラベル付き外科ビデオデータの欠如を、オープンな外科ビデオ講義を多モーダル学習の監督として活用して解決する。
  • 外科ドメインの ASR 制約を緩和するため、二つの転写源(Whisper と AWS Medical Transcribe)を用いて頑健なテキスト表現を作成する。
  • ビデオクリップと複数のテキストビューを共通潜在空間で整列させるコントラスト学習 objective を開発する。
  • 学習した表現を視覚と言語のタスク(テキストベースのビデオ検索、時系列アタリ付け、ビデオキャプション)で評価し、視覚のみのタスクへのゼロショット転送を評価する(ツール、フェーズ、アクションのトリプレット認識)。

提案手法

  • 二つの ASR システム(AWS Medical Transcribe と Whisper)で音声を文字起こし、AWS の文と merged Whisper 文を整列させてビデオクリップをサンプリングすることで、外科ビデオ講義から大規模なビデオクリップ-テキスト対データセットを構築する。
  • CNN ベースの視覚エンコーダ(ResNet-50)とトランスフォーマー型テキストエンコーダ(BioClinicalBert)を用いた二重ブランチモデルにより、ビデオクリップとテキストビューの共有潜在ベクトルを生成する。
  • InfoNCE(ビデオ対 AWS テキスト)と MIL-NCE(ビデオ対 複数の Whisper テキスト)を組み合わせた多ビュー対照学習 objective を適用し、ビデオと二重テキスト埋め込みを共同潜在空間に整列させる。
  • 下流タスクでのトレーニング用にテキストデコーダを事前学習エンコーダへ追加し、ビデオキャプションをテキストデータのみで実行できるようにする。
  • ground-truth ラベルなしで視覚と言語のタスクおよび視覚のみのタスクでゼロショット転送を実証し、外科手技間の一般化を示す。
Fig. 1 : Examples of video clip-text pairs from SVL dataset. The video clip-text pairs are pairs of video clips and their corresponding transcripts. We generate transcripts for hundreds of surgical video lectures using two ASR systems. The transcripts usually illustrate the essential concept of surg
Fig. 1 : Examples of video clip-text pairs from SVL dataset. The video clip-text pairs are pairs of video clips and their corresponding transcripts. We generate transcripts for hundreds of surgical video lectures using two ASR systems. The transcripts usually illustrate the essential concept of surg

実験結果

リサーチクエスチョン

  • RQ1公開されている外科ビデオ講義は manual アノテーションなしで多モーダル表現学習の十分な監督を提供できるか。
  • RQ2二重 ASR の転写(AWS と Whisper)を組み合わせると、ビデオクリップとテキストの整合性は単一の ASR より改善されるか。
  • RQ3二重テキストビューを跨ぐコントラスト学習目標は、外科手術の強健な共同潜在空間を生み出せるか。
  • RQ4学習した表現は視覚と言語タスクでのゼロショット性能を実現し、視覚のみの外科タスクへ転送できるか。

主な発見

  • 本手法は、視覚と言語タスク(テキストベースのビデオ検索、時系列アタリ付け、ビデオキャプション)でベースラインを上回る顕著な改善を示した。
  • ゼロショット転送は、グラウンドトラウルのラベルなしでも手技特有のタスク(例:腹腔鏡下胆嚢摘出)に利益をもたらす一般的な外科概念を学習する。
  • 二重 ASR 戦略は個々の ASR の弱点を緩和し、外科用語と文構造に対する監督信号の質を向上させる。
  • 学習された共同潜在空間は、視覚のみのタスクにおけるツール、フェーズ、およびアクショントリプレットのゼロショット認識をサポートする(これらのタスクにはラベルデータを使用せず)。
  • アブレーション研究は、二重テキストビューと MIL-NCE コンポーネントの使用が性能に与える影響を強調する。
  • SVL(1.4k ビデオ)は、外科領域における大規模で言語誘導型の表現学習の実現可能性を示している。
Fig. 2 : (a) shows the examples of video clip-text pairs and their construction process. We have two text views and we pair them to random lengths of video clips. (b) presents the contrastive learning objective with AWS sentences and Whisper sentences. SurgVLP utilizes the Info-NCE and MIL-NCE losse
Fig. 2 : (a) shows the examples of video clip-text pairs and their construction process. We have two text views and we pair them to random lengths of video clips. (b) presents the contrastive learning objective with AWS sentences and Whisper sentences. SurgVLP utilizes the Info-NCE and MIL-NCE losse

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。