[논문 리뷰] CytoCrowd: A Multi-Annotator Benchmark Dataset for Cytology Image Analysis
CytoCrowd는 네 명의 병리학자와 수석 전문가 골드 표준의 원시 주석을 포함한 446개의 고해상도 세포진 이미지를 제공하여 표준 CV 평가와 주석 집계 연구를 가능하게 합니다.
High-quality annotated datasets are crucial for advancing machine learning in medical image analysis. However, a critical gap exists: most datasets either offer a single, clean ground truth, which hides real-world expert disagreement, or they provide multiple annotations without a separate gold standard for objective evaluation. To bridge this gap, we introduce CytoCrowd, a new public benchmark for cytology analysis. The dataset features 446 high-resolution images, each with two key components: (1) raw, conflicting annotations from four independent pathologists, and (2) a separate, high-quality gold-standard ground truth established by a senior expert. This dual structure makes CytoCrowd a versatile resource. It serves as a benchmark for standard computer vision tasks, such as object detection and classification, using the ground truth. Simultaneously, it provides a realistic testbed for evaluating annotation aggregation algorithms that must resolve expert disagreements. We provide comprehensive baseline results for both tasks. Our experiments demonstrate the challenges presented by CytoCrowd and establish its value as a resource for developing the next generation of models for medical image analysis.
연구 동기 및 목표
- 공개적인 세포진 데이터셋을 제공하되 원시 전문가 간 불일치와 골드 표준 지상 진실을 모두 포함합니다.
- 확정 GT를 사용하여 객체 탐지, 분류, 세분화 모델의 평가를 가능하게 합니다.
- 전문가 간 불일치를 해소하기 위한 주석 집계 알고리즘의 테스트베드를 제공합니다.
- 두 작업: 컴퓨터 비전과 주석 집계에 대한 베이스라인 벤치마킹을 지원합니다.
제안 방법
- 34-class 분류학을 사용하여 4명의 보드-certified 병리학자가 14,579개의 원시 ROIs로 446개의 고해상도 세포진 이미지를 주석 처리합니다.
- 모든 주석을 통합하여 6,402개의 객체로 구성된 수석 전문가 기반 골드 표준 GT를 만듭니다.
- 두 가지 작업을 정의합니다: (1) 골드 GT를 사용한 의료 객체 탐지/분류; (2) 충돌하는 주석을 하나의 결과로 융합하는 주석 집계.
- IoU 기반 로컬라이제이션 0.5 임계값으로 평가하며, 정확하게 로컬라이즈된 객체에 대한 골드 GT 기반 분류 정확도를 보고합니다.
- 집계 방법(MV, D&S, CATD, PM, LFC, ZenCrowd) 및 학습 기반 CV 모델(DeepEdit, Anytime, Qwen-VL-MAX, Qwen2.5-VL-72B)의 베이스라인 결과를 제공합니다.
- 데이터셋 통계 및 주석 간 차이 지표(평균 페어 IoU, 네 명의 전문가가 모두 식별한 객체의 비율 대 단일 전문가에 의해 식별된 비율) 등을 논의합니다.

실험 결과
연구 질문
- RQ1세포진 이미지의 원시 다전문가 주석이 수석 확인 골드 표준과 어떻게 비교되는가?
- RQ2세포진의 전문가 간 불일치 데이터에서 표준 주석 집계 방법은 얼마나 효과적인가?
- RQ3일반 비전-언어 모델과 전문 세분화 모델이 세포진 작업에서 어떤 성능 차이를 보이는가?
- RQ4CytoCrowd 벤치마크가 확정 GT를 사용한 객체 탐지/분류 모델의 강력한 평가를 지원할 수 있는가?
주요 결과
| Method | Accuracy |
|---|---|
| CATD | 0.857 |
| Dawid & Skene (D&S) | 0.893 |
| Majority Voting (MV) | 0.903 |
| PM | 0.855 |
| LFC | 0.896 |
| ZenCrowd | 0.883 |
| Qwen-VL-MAX | 0.441 |
| Qwen2.5-VL-72B | 0.437 |
| DeepEdit | 0.899 |
| Anytime | 0.878 |
- 대다수 투표(Majority Voting)가 테스트된 방법들 중 가장 높은 집계 정확도(0.903)를 보였다.
- Dawid & Skene(D&S)가 0.893의 정확도로 MV에 근접했다.
- 다른 집계 베이스라인은 0.855에서 0.883 범위로 이 전문가 데이터셋에서 MV 대비 큰 이익을 보이지 않았다.
- Qwen-VL-MAX 및 Qwen2.5-VL-72B는 전문 학습 없이 세포진 작업에서 성능이 저조하여 정확도 < 0.45를 보인다.
- DeepEdit와 Anytime은 이 도메인에서 VLMs보다 높은 CV 정확도(각각 0.899와 0.878)를 달성했다.
- CytoCrowd는 14,579개의 원시 ROI 주석이 6,402개의 GT 객체에 걸쳐 높은 주석 부담과 상당한 주석자 간 변동성(평균 페어 IoU 0.664)을 드러낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.