Skip to main content
QUICK REVIEW

[논문 리뷰] OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Kibrom Gebremedhin, Hadush Hailu|arXiv (Cornell University)|2026. 03. 06.
Reproductive tract infections research인용 수 0
한 줄 요약

OPTED는 SAM 3 제로샷 세그먼테이션으로 파생된 오픈 소스 전처리 트라코마 눈 데이터셋을 제시하며, 네 단계 파이프라인과 ML 준비 이미지 생성을 위한 두 가지 출력 형식을 산출하기 위한 프롬프트 평가를 상세히 설명합니다.

ABSTRACT

Trachoma remains the leading infectious cause of blindness worldwide, with Sub-Saharan Africa bearing over 85% of the global burden and Ethiopia alone accounting for more than half of all cases. Yet publicly available preprocessed datasets for automated trachoma classification are scarce, and none originate from the most affected region. Raw clinical photographs of eyelids contain significant background noise that hinders direct use in machine learning pipelines. We present OPTED, an open-source preprocessed trachoma eye dataset constructed using the Segment Anything Model 3 (SAM 3) for automated region-of-interest extraction. We describe a reproducible four-step pipeline: (1) text-prompt-based zero-shot segmentation of the tarsal conjunctiva using SAM 3, (2) background removal and bounding-box cropping with alignment, (3) quality filtering based on confidence scores, and (4) Lanczos resizing to 224x224 pixels. A separate prompt-selection stage identifies the optimal text prompt, and manual quality assurance verifies outputs. Through comparison of five candidate prompts on all 2,832 known-label images, we identify "inner surface of eyelid with red tissue" as optimal, achieving a mean confidence of 0.872 (std 0.070) and 99.5% detection rate (the remaining 13 images are recovered via fallback prompts). The pipeline produces outputs in two formats: cropped and aligned images preserving the original aspect ratio, and standardized 224x224 images ready for pre-trained architectures. The OPTED dataset, preprocessing code, and all experimental artifacts are released as open source to facilitate reproducible trachoma classification research.

연구 동기 및 목표

  • 서아프리카에서 기원한 공개적으로 이용 가능한 트라코마 이미지 데이터셋을 제공한다.
  • ROI 추출을 위한 SAM 3를 이용한 4단계 전처리 파이프라인을 재현 가능하게 개발한다.
  • 프롬프트를 체계적으로 평가하여 속눈설막 결막(segmentation 대상)의 최적 SAM 3 프롬프트를 식별한다.
  • 재현 가능한 트라코마 분류 연구를 가능하게 하기 위해 데이터셋, 코드 및 산출물을 공개한다.

제안 방법

  • 다섯 가지 후보 텍스트 프롬프트를 사용하여 제로샷 설정에서 SAM 3를 활용해 속눈설풀의 결막을 안검 사진으로부터 분할한다.
  • 배경 제거, 5% 여백을 가진 경계 상자 자르기, 수평 정렬을 적용하여 잘려진 이미지를 얻는다.
  • 표준 아키텍처와의 호환성을 위해 Lanczos 보간으로 이미지를 224x224 픽셀로 크기 조정한다.
  • 탐지율, 평균 신뢰도, 마스크 커버리지를 기반으로 최적 프롬프트를 선택하는 프롬프트 선택 단계를 수행하고 누락에 대한 예비 대책을 마련한다.
  • 두 가지 형식의 출력(잘려지고 정렬된 이미지와 표준화된 224x224 이미지)과 전체 오픈 소스 전처리 코드를 제공한다.
Figure 2: Overview of the OPTED preprocessing pipeline. Raw eyelid photographs are processed through SAM 3 text-prompt segmentation, background removal, bounding-box cropping with 5% padding, horizontal alignment, and Lanczos resizing to $224\times 224$ pixels.
Figure 2: Overview of the OPTED preprocessing pipeline. Raw eyelid photographs are processed through SAM 3 text-prompt segmentation, background removal, bounding-box cropping with 5% padding, horizontal alignment, and Lanczos resizing to $224\times 224$ pixels.

실험 결과

연구 질문

  • RQ1어떤 SAM 3 텍스트 프롬프트가 트라코마 눈꺼풀 이미지의 속눈설막 결막 분할에 대해 최상의 성능을 보이는가?
  • RQ2완전히 재현 가능한 네 단계 전처리 파이프라인이 원시 트라코마 사진으로부터 224x224 ML 준비 이미지를 신뢰성 있게 생성할 수 있는가?
  • RQ3프롬프트 선택이 다국가 데이터셋에서 탐지율, 신뢰도 및 마스크 커버리지에 어떤 영향을 끼치는가?
  • RQ4오픈 소스 OPTED 파이프라인이 사하라 이남 아프리카 및 기타 지역의 다양한 트라코마 이미지에 얼마나 잘 일반화되는가?

주요 결과

프롬프트탐지율누락점수표준편차영역
눈 안쪽의 빨간 조직99.8%60.8530.06928.2%
눈꺼풀의 안쪽 표면99.9%10.8460.08024.0%
눈꺼풀 내부의 빨간선98.7%360.7370.07626.7%
눈꺼풀 아래의 막99.5%140.8050.08226.3%
눈꺼풀의 안쪽 표면에 빨간 조직99.5%130.8730.06929.8%
  • 프롬프트 “inner surface of eyelid with red tissue”가 평균 신뢰도(0.873)와 가장 큰 마스크 면적(29.8%)으로 최고 성능을 달성한다.
  • 데이터셋 전체에 걸친 SAM 3 평균 신뢰도는 0.872이며 표준편차는 0.070이다.
  • 탐지율은 99.5%이며 누락 13건은 대체 프롬프트를 통해 복구되었다.
  • OPTED 파이프라인은 잘려지고 정렬된 이미지와 224x224 PNG 이미지의 2가지 형식을 생성하며 70/15/15의 계층적 학습/검증/테스트 분할을 따른다.
  • Lanczos 리사이징은 224x224 출력에 대해 PSNR 39.16 dB, SSIM 0.9713으로 최적의 성능을 보인다.
Figure 3: Visual comparison of SAM 3 masks from the five candidate prompts on three sample images (two Normal, one Trachoma). Blue overlay indicates the predicted mask; yellow contours delineate boundaries. The selected prompt P5 (green border) provides the most complete coverage of the tarsal conju
Figure 3: Visual comparison of SAM 3 masks from the five candidate prompts on three sample images (two Normal, one Trachoma). Blue overlay indicates the predicted mask; yellow contours delineate boundaries. The selected prompt P5 (green border) provides the most complete coverage of the tarsal conju

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.