Skip to main content
QUICK REVIEW

[論文レビュー] GazeSAM: What You See is What You Segment

Bin Wang, Armstrong Aboah|arXiv (Cornell University)|Apr 26, 2023
Gaze Tracking and Assistive Technology被引用数 8
ひとこと要約

GazeSAMは視線追跡とSegment Anything Model (SAM) を組み合わせ、放射線科医によるリアルタイムの医用画像セグメンテーションを視線データをプロンプトとして実現します。

ABSTRACT

This study investigates the potential of eye-tracking technology and the Segment Anything Model (SAM) to design a collaborative human-computer interaction system that automates medical image segmentation. We present the extbf{GazeSAM} system to enable radiologists to collect segmentation masks by simply looking at the region of interest during image diagnosis. The proposed system tracks radiologists' eye movement and utilizes the eye-gaze data as the input prompt for SAM, which automatically generates the segmentation mask in real time. This study is the first work to leverage the power of eye-tracking technology and SAM to enhance the efficiency of daily clinical practice. Moreover, eye-gaze data coupled with image and corresponding segmentation labels can be easily recorded for further advanced eye-tracking research. The code is available in \url{https://github.com/ukaukaaaa/GazeSAM}.

研究の動機と目的

  • リアルタイムの医用画像セグメンテーションのために視線追跡とSAMを統合する協調的な人間とコンピュータの相互作用システムを提案する。
  • SAMに対する入力プロンプトとして画面ベースの視線追跡データを活用し、セグメンテーションマスクを要求に応じて生成する。
  • 2Dおよび3Dの医用画像の両方をサポートし、おおまかと詳密のセグメンテーションワークフローを促進する。
  • さらなる研究のために視線追跡データとセグメンテーションマスクを記録する使いやすいインターフェースを提供する。

提案手法

  • 60 Hzの Tobii Pro Nano 画面ベース視線トラッカーを用いて視線座標を収集する(5点キャリブレーション)。
  • スクリーン空間から画像座標空間への視線座標変換を座標マッピング関数 f(·) によって実施する。
  • SAM への2つの視線プロンプトオプションを提供する: (i) 全視線軌跡を点列として、(ii) 粗セグメンテーションのための最後の視線点。
  • 変換後の視線プロンプトと事前計算済みの画像埋め込みを SAM に入力して近リアルタイムでセグメンテーションマスクを生成する。
  • 視線・トラッキング・ライブセグメンテーションを可視化し、マスク保存や追加の視線プロンプトによる洗練化のオプションを提供する。
  • 医療データでの SAM の微調整を含む、システムの限界と潜在的な改善点について議論する。
Figure 1: Overview of our proposed system.
Figure 1: Overview of our proposed system.

実験結果

リサーチクエスチョン

  • RQ1視線データをリアルタイムの画像セグメンテーションのプロンプトとして SAM に効果的に使用できるか。
  • RQ22Dおよび3Dの医用画像は、臨床ワークフロー内で視線駆動セグメンテーションにどのように適合するか。
  • RQ3スクリーンベースの視線追跡を用いた対話的な医用画像注釈の実用的な利点と制限は何か。

主な発見

  • GazeSAM システムは放射線科医の視線に駆動されたリアルタイムのセグメンテーションマスク生成を可能にする。
  • 2つの視線プロンプトオプションをサポート:全視線シーケンスプロンプトと粗セグメンテーションのための最後の点プロンプト。
  • スクリーンベースの視線トラッカー(Tobii Pro Nano)を用いてキャリブレーションを行い、SAMへのプロンプト用の視線データを収集する。
  • 本手法は2Dおよび3Dの医用画像の両方をサポートし、視線プロンプトの調整による反復的な洗練化を可能にする。
  • 本手法は放射線科医のワークフローの効率を向上させ、今後の視線追跡研究のための視線データ収集に寄与する可能性を示す。
  • 本研究は医用画像における SAM の制限を議論し、医用データセットでの SAM の微調整を潜在的改善として提案する。
Figure 2: Two eye-gaze prompt options for segmentation in GazeSAM.
Figure 2: Two eye-gaze prompt options for segmentation in GazeSAM.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。