[论文解读] OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation
OPTED 提供一个使用 SAM 3 零-shot 分割得到的开源预处理沙眼病眼部数据集,详细描述一个四步管线和提示评估以生成两种适用于 ML 的输出格式。
Trachoma remains the leading infectious cause of blindness worldwide, with Sub-Saharan Africa bearing over 85% of the global burden and Ethiopia alone accounting for more than half of all cases. Yet publicly available preprocessed datasets for automated trachoma classification are scarce, and none originate from the most affected region. Raw clinical photographs of eyelids contain significant background noise that hinders direct use in machine learning pipelines. We present OPTED, an open-source preprocessed trachoma eye dataset constructed using the Segment Anything Model 3 (SAM 3) for automated region-of-interest extraction. We describe a reproducible four-step pipeline: (1) text-prompt-based zero-shot segmentation of the tarsal conjunctiva using SAM 3, (2) background removal and bounding-box cropping with alignment, (3) quality filtering based on confidence scores, and (4) Lanczos resizing to 224x224 pixels. A separate prompt-selection stage identifies the optimal text prompt, and manual quality assurance verifies outputs. Through comparison of five candidate prompts on all 2,832 known-label images, we identify "inner surface of eyelid with red tissue" as optimal, achieving a mean confidence of 0.872 (std 0.070) and 99.5% detection rate (the remaining 13 images are recovered via fallback prompts). The pipeline produces outputs in two formats: cropped and aligned images preserving the original aspect ratio, and standardized 224x224 images ready for pre-trained architectures. The OPTED dataset, preprocessing code, and all experimental artifacts are released as open source to facilitate reproducible trachoma classification research.
研究动机与目标
- 提供一个公开可得的原自撒哈拉以南非洲的预处理沙眼病图像数据集。
- 使用 SAM 3 构建一个可重复的四步预处理管线,用于睫毛眼睑图像的感受野(ROI)提取。
- 系统性评估文本提示以确定用于睫状结膜分割的最优 SAM 3 提示。
- 发布数据集、代码和产物以实现沙眼病分类研究的可重复性。
提出的方法
- 在零-shot 设置中使用 SAM 3,通过五个候选文本提示对睫毛眼睑照片中的睫状结膜进行分割。
- 应用背景移除、带有 5% 边界填充的边界框裁剪以及水平对齐以获取裁剪图像。
- 使用 Lanczos 插值将图像调整为 224x224 像素,以兼容标准体系结构。
- 执行提示选择阶段,根据检测率、平均置信度和掩模覆盖率来选择最优提示,并对未检测情况设置回退机制。
- 输出两种格式:裁剪/对齐图像和标准化的 224x224 图像,并提供完整的开源预处理代码。

实验结果
研究问题
- RQ1哪一个 SAM 3 文本提示在沙眼睑部图像中对睫状结膜的分割性能最好?
- RQ2一个完全可复现的四步预处理管线是否能够从原始沙眼病照片中生成可靠的 224x224 的 ML 就绪图像?
- RQ3提示选择对检测率、置信度和掩模覆盖率在跨多国数据集上的影响是如何的?
- RQ4开源 OPTED 管线在撒哈拉以南非洲及其他地区的多样化沙眼病图像上有多好的泛化性?
主要发现
| Prompt | Det. | Miss | Score | Std | Area |
|---|---|---|---|---|---|
| red tissue inside eye | 99.8% | 6 | 0.853 | 0.069 | 28.2% |
| inner surface of eyelid | 99.9% | 1 | 0.846 | 0.080 | 24.0% |
| red lining inside eyelid | 98.7% | 36 | 0.737 | 0.076 | 26.7% |
| membrane under eyelid | 99.5% | 14 | 0.805 | 0.082 | 26.3% |
| inner surface of eyelid with red tissue | 99.5% | 13 | 0.873 | 0.069 | 29.8% |
- 提示 “inner surface of eyelid with red tissue” 达到最高的平均置信度 (0.873) 和最大的掩模面积 (29.8%)。
- 数据集上的整体平均 SAM 3 置信度为 0.872,标准差 0.070。
- 检测率为 99.5%,有 13 例通过回退提示恢复。
- OPTED 管线输出 2 种格式:裁剪/对齐与 224x224 PNG 图像,且具有分层的训练/验证/测试划分(70/15/15)。
- Lanczos 调整尺寸在 224x224 输出上获得最佳 PSNR (39.16 dB) 和 SSIM (0.9713)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。