[论文解读] The Cells Out of Sample (COOS) dataset and benchmarks for measuring out-of-sample generalization of image classifiers
COOS-7数据集包含132,209张小鼠细胞图像,涵盖七个类别,可实现对图像分类器在样本外泛化能力的系统性评估。通过在四个测试集上控制协变量偏移(从分布内到不同时间、仪器和条件下的图像),本研究对迁移学习、监督深度卷积神经网络(CNN)以及自监督表征进行了基准测试,揭示了随着分布偏移增加,性能持续下降的现象。
Understanding if classifiers generalize to out-of-sample datasets is a central problem in machine learning. Microscopy images provide a standardized way to measure the generalization capacity of image classifiers, as we can image the same classes of objects under increasingly divergent, but controlled factors of variation. We created a public dataset of 132,209 images of mouse cells, COOS-7 (Cells Out Of Sample 7-Class). COOS-7 provides a classification setting where four test datasets have increasing degrees of covariate shift: some images are random subsets of the training data, while others are from experiments reproduced months later and imaged by different instruments. We benchmarked a range of classification models using different representations, including transferred neural network features, end-to-end classification with a supervised deep CNN, and features from a self-supervised CNN. While most classifiers perform well on test datasets similar to the training dataset, all classifiers failed to generalize their performance to datasets with greater covariate shifts. These baselines highlight the challenges of covariate shifts in image data, and establish metrics for improving the generalization capacity of image classifiers.
研究动机与目标
- 开发一个标准化基准,用于测量基于显微成像数据的图像分类器在样本外的泛化能力。
- 研究不同表征学习方法在协变量偏移增加情况下的表现。
- 建立一个公开数据集,以捕捉成像条件、时间及仪器方面的现实且受控的变化。
- 评估迁移学习、监督深度学习以及自监督表征在分布偏移下的鲁棒性。
提出的方法
- COOS-7数据集由在受控、变化的实验条件下收集的小鼠细胞图像构建而成。
- 创建了四个具有不同程度协变量偏移的测试数据集:分布内子集、数月后同一实验的数据、不同仪器采集的数据,以及不同的生物制备样本。
- 评估了多种模型:使用预训练CNN特征的迁移学习、端到端监督深度CNN,以及自监督CNN表征。
- 通过在四个测试集上的分类准确率来衡量性能,以量化在分布偏移增加情况下的泛化能力。
- 该数据集使模型在时间、仪器和生物变异方面的鲁棒性得以受控比较。
- 该基准通过测量协变量偏移增加时的性能退化情况,评估泛化能力。
实验结果
研究问题
- RQ1不同表征学习方法在协变量偏移逐渐增加的样本外数据上如何泛化?
- RQ2迁移学习、监督深度学习以及自监督表征在真实成像变化下,性能能维持到何种程度?
- RQ3当测试数据在时间、仪器和生物条件上与训练数据偏离时,性能如何退化?
- RQ4在图像分类中,量化样本外泛化能力的最有效指标和基准是什么?
主要发现
- 所有分类器在分布内测试集上表现强劲,但在协变量偏移更大的数据集上均无法泛化。
- 所有模型类型均表现出一致的性能退化,表明处理分布偏移存在根本性挑战。
- 在中等程度偏移下,迁移学习和自监督表征的鲁棒性略优于端到端监督CNN,但在高度偏移下仍失败。
- COOS-7基准揭示,当前模型对成像条件变化(如时间延迟实验和仪器差异)极为敏感。
- 该数据集与基准建立了一个可复现的框架,用于评估和改进图像分类器的泛化能力。
- 结果凸显了改进不变性学习的必要性,以应对显微镜及其他成像应用中的真实世界分布偏移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。