[论文解读] GazeSAM: What You See is What You Segment
GazeSAM 将眼动追踪与 Segment Anything Model (SAM) 相结合,使放射科医生能够通过凝视数据提示进行实时医学影像分割。
This study investigates the potential of eye-tracking technology and the Segment Anything Model (SAM) to design a collaborative human-computer interaction system that automates medical image segmentation. We present the extbf{GazeSAM} system to enable radiologists to collect segmentation masks by simply looking at the region of interest during image diagnosis. The proposed system tracks radiologists' eye movement and utilizes the eye-gaze data as the input prompt for SAM, which automatically generates the segmentation mask in real time. This study is the first work to leverage the power of eye-tracking technology and SAM to enhance the efficiency of daily clinical practice. Moreover, eye-gaze data coupled with image and corresponding segmentation labels can be easily recorded for further advanced eye-tracking research. The code is available in \url{https://github.com/ukaukaaaa/GazeSAM}.
研究动机与目标
- 提出一个将眼动追踪与 SAM 集成的实时医学图像分割的协同人机交互系统。
- 利用基于屏幕的眼动数据作为输入提示给 SAM,以按需生成分割掩模。
- 同时支持二维和三维医学影像,并促进粗略与精细分割工作流程。
- 提供一个用户友好的界面,在记录分割掩模的同时记录眼动数据以供进一步研究。
提出的方法
- 使用 Tobii Pro Nano 屏幕基眼动追踪仪,60 Hz,五点标定,收集凝视坐标。
- 通过坐标映射函数 f(·) 将屏幕空间的眼动坐标转换为图像坐标空间。
- 为 SAM 提供两种眼动提示选项:(i) 将整个凝视轨迹作为一系列点;(ii) 作为粗略分割的最后一个凝视点。
- 将转换后的凝视提示和预计算的图像嵌入输入到 SAM,以近实时生成分割掩模。
- 提供一个可视化凝视、跟踪和实时分割的用户界面,具有保存掩模和通过额外凝视提示进行细化的选项。
- 讨论系统局限性和潜在改进方向,包括在医学数据上对 SAM 进行微调。

实验结果
研究问题
- RQ1凝视数据是否可以有效作为 SAM 的提示用于医学影像的实时分割?
- RQ2在临床工作流程中,二维与三维医学影像在 SAM 的凝视驱动分割下的表现如何?
- RQ3使用基于屏幕的眼动追踪进行交互式医学影像标注的实际收益和局限性是什么?
主要发现
- GazeSAM 系统实现了由放射科医生凝视驱动的实时分割掩模生成。
- 支持两种凝视提示选项:完整凝视序列提示和用于粗略分割的最后一点提示。
- 使用屏幕基眼动追踪器(Tobii Pro Nano)并进行标定来收集用于提示 SAM 的凝视数据。
- 该方法支持二维和三维医学影像,并通过调整凝视提示实现迭代细化。
- 该方法有望提升放射科医生的工作流程效率,并为未来的眼动追踪研究收集凝视数据。
- 研究讨论了 SAM 在医学影像上的局限性,并提出在医学数据集上对 SAM 进行微调作为潜在改进。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。