[论文解读] RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image Classification
RP2K 是一个大规模的真实零售产品数据集,包含来自自然光照下实体店的 350,000 张图像,涵盖 2,388 种不同的 SKU。尽管采用了最先进细粒度方法,性能仅略高于简单的 ResNet 基线,凸显了在真实条件下零售产品识别仍存在巨大提升空间。
We introduce RP2K, a new large-scale retail product dataset for fine-grained image classification. Unlike previous datasets focusing on relatively few products, we collect more than 500,000 images of retail products on shelves belonging to 2000 different products. Our dataset aims to advance the research in retail object recognition, which has massive applications such as automatic shelf auditing and image-based product information retrieval. Our dataset enjoys following properties: (1) It is by far the largest scale dataset in terms of product categories. (2) All images are captured manually in physical retail stores with natural lightings, matching the scenario of real applications. (3) We provide rich annotations to each object, including the sizes, shapes and flavors/scents. We believe our dataset could benefit both computer vision research and retail industry. Our dataset is publicly available at https://www.pinlandata.com/rp2k_dataset.
研究动机与目标
- 解决实验室数据集与真实零售应用在细粒度产品识别之间的差距。
- 提供一个大规模、真实的基准数据集,包含多样化的商品变体(如尺寸、口味、形状),以更真实地反映店内挑战。
- 支持细粒度分类、少样本学习和生成建模在零售视觉任务中的研究。
- 支持在真实世界条件下(如光照变化、相机角度、遮挡)的鲁棒性评估。
- 作为基准,推动自动化货架审计、产品检索和库存监控系统的发展。
提出的方法
- 在自然光照条件下,从 500 多家实体店手动收集 350,000 张产品图像。
- 涵盖 7 种产品类型和 7 种形状的 2,388 个唯一 SKU,支持分层评估。
- 每张图像标注 SKU ID、品牌、口味/类型、尺寸和形状,支持多层级细粒度分析。
- 整合 10,000 张原始高分辨率货架图像(平均尺寸 3024×4032),用于布局和场景理解任务。
- 由于类别分布呈长尾特征,数据集设计支持少样本学习,其中 100 多个类别训练图像少于 30 张。
- 使用边界框和语义标签,支持目标检测、布局生成和对抗鲁棒性评估。
实验结果
研究问题
- RQ1最先进的细粒度分类模型在光照和相机角度变化的现实零售产品识别中是否能有效泛化?
- RQ2考虑到细粒度零售产品变体的复杂性,深度学习模型在 RP2K 上的性能与简单基线(如 ResNet)相比如何?
- RQ3由于其长尾类别分布(包含大量低资源类别),RP2K 在多大程度上支持少样本学习?
- RQ4RP2K 能否作为生成模型的现实基准,用于合成具有准确物体布局的结构化货架图像?
- RQ5RP2K 在支持实际零售应用(如自动化货架审计和实时缺货检测)方面有多高效?
主要发现
- 即使最先进的细粒度分类模型在 RP2K 上也仅略高于简单 ResNet 基线,表明性能差距显著,存在巨大改进空间。
- 该数据集包含 2,388 个不同 SKU,平均每个 SKU 有 160 张图像,是目前类别数量最多的细粒度零售数据集。
- RP2K 中超过 100 个类别训练图像少于 30 张,形成强烈的长尾分布,适合用于少样本学习评估。
- 丰富的属性(如品牌、口味、尺寸和形状)支持在多个粒度层级上进行细粒度评估。
- 真实世界的数据采集过程采用自然光照和真实货架摆放,高度模拟零售店的实际部署场景。
- 带有边界框标注的原始货架图像为训练和评估用于结构化图像合成与布局预测的生成模型提供了坚实基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。