QUICK REVIEW

[論文レビュー] CytoCrowd: A Multi-Annotator Benchmark Dataset for Cytology Image Analysis

Yonghao Si, Xingyuan Zeng|arXiv (Cornell University)|Feb 6, 2026

AI in cancer detection被引用数 0

ひとこと要約

CytoCrowd は 4 名の病理専門医と上級専門家のゴールドスタンダードから成る生データ注釈を含む 446 枚の高解像度細胞診画像を提供し、標準的な CV 評価と注釈集約研究の双方を可能にします。

ABSTRACT

High-quality annotated datasets are crucial for advancing machine learning in medical image analysis. However, a critical gap exists: most datasets either offer a single, clean ground truth, which hides real-world expert disagreement, or they provide multiple annotations without a separate gold standard for objective evaluation. To bridge this gap, we introduce CytoCrowd, a new public benchmark for cytology analysis. The dataset features 446 high-resolution images, each with two key components: (1) raw, conflicting annotations from four independent pathologists, and (2) a separate, high-quality gold-standard ground truth established by a senior expert. This dual structure makes CytoCrowd a versatile resource. It serves as a benchmark for standard computer vision tasks, such as object detection and classification, using the ground truth. Simultaneously, it provides a realistic testbed for evaluating annotation aggregation algorithms that must resolve expert disagreements. We provide comprehensive baseline results for both tasks. Our experiments demonstrate the challenges presented by CytoCrowd and establish its value as a resource for developing the next generation of models for medical image analysis.

研究の動機と目的

公的な細胞診データセットを提供し、生の専門家間の意見対立とゴールドスタンダードの真値を含むこと。
物体検出、分類、およびセグメンテーションモデルの評価を決定的GTを用いて可能にすること。
専門家の意見の対立を統合するための注釈集約アルゴリズムのテストベッドを提供すること。
二つのタスク（コンピュータビジョンと注釈集約）のベースライン評価をサポートすること。）

提案手法

34クラス分類の分類系を用い、4 名の認定病理医が 14,579 の生デ ROI を注釈した 446 枚の高解像度細胞診画像を作成する。
全ての注釈を統合して 6,402 個のオブジェクトから成る上級専門家由来のゴールドスタンダード GT を作成する。
二つのタスクを定義する。 (1) ゴールド GT を用いた医用物体検出/分類、(2) 対立する注釈を一つの結果に融合する注釈集約。
0.5 の閾値で IoU ベースのローカライゼーションを用いて評価し、正しく局在したオブジェクトの分類精度をゴールド GT ベースで報告する。
集約手法（MV、D&S、CATD、PM、LFC、ZenCrowd）および学習ベースの CV モデル（DeepEdit、Anytime、Qwen-VL-MAX、Qwen2.5-VL-72B）のベースライン結果を提供する。
データセットの統計と注釈者間の不一致指標（平均対比較 IoU、4 名すべてが識別したオブジェクトの割合 vs 単一専門家のみの識別割合）を議論する。

Figure 1. Raw expert annotations (left) vs. the final gold-standard ground truth (right) on a sample image from CytoCrowd.

実験結果

リサーチクエスチョン

RQ1生データの多専門家注釈は、細胞診画像の上級検証済みゴールドスタンダードとどのように比較されるのか？
RQ2専門家の対立データに対する標準的な注釈集約法は細胞診でどれくらい効果的か？
RQ3一般的なビジョン-言語モデルと専門分野のセグメンテーションモデルは細胞診タスクでどの程度性能差があるのか？
RQ4CytoCrowd ベンチマークは決定的 GT を用いた物体検出/分類モデルの堅牢な評価をサポートできるのか？

主な発見

Method	Accuracy
CATD	0.857
Dawid & Skene (D&S)	0.893
Majority Voting (MV)	0.903
PM	0.855
LFC	0.896
ZenCrowd	0.883
Qwen-VL-MAX	0.441
Qwen2.5-VL-72B	0.437
DeepEdit	0.899
Anytime	0.878

多数決は、テストされた手法の中で最も高い集約精度を達成（0.903）。
Dawid & Skene は 0.893 の精度で MV に近い。
他の集約ベースラインは 0.855 〜 0.883 の範囲であり、この専門家データセットにおいて MV より大きな利益は見られない。
Qwen-VL-MAX および Qwen2.5-VL-72B は、専門的な微調整なしでは細胞診タスクで 0.45 未満の精度と低い性能。
DeepEdit および Anytime はこの領域の VLMs と比較して CV 精度が高く、0.899 および 0.878。
CytoCrowd は注釈負担が大きいこと（6,402 GT オブジェクトに対して 14,579 の生 ROI 注釈）と注釈者間のばらつきが顕著であること（平均ペアワイズ IoU 0.664）を明らかにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。