[论文解读] CoPhIR: a Test Collection for Content-Based Image Retrieval
CoPhIR 是一个大规模、公开可访问的图像测试集,包含1亿张图像及其提取的MPEG-7视觉特征,通过Flickr的网络爬取和EGEE GRID上的分布式处理构建而成。它支持可扩展的内容基图像检索(CBIR)技术评估,解决了在网页规模下进行相似性搜索基准测试时缺乏大规模、真实数据集的问题。
The scalability, as well as the effectiveness, of the different Content-based Image Retrieval (CBIR) approaches proposed in literature, is today an important research issue. Given the wealth of images on the Web, CBIR systems must in fact leap towards Web-scale datasets. In this paper, we report on our experience in building a test collection of 100 million images, with the corresponding descriptive features, to be used in experimenting new scalable techniques for similarity searching, and comparing their results. In the context of the SAPIR (Search on Audio-visual content using Peer-to-peer Information Retrieval) European project, we had to experiment our distributed similarity searching technology on a realistic data set. Therefore, since no large-scale collection was available for research purposes, we had to tackle the non-trivial process of image crawling and descriptive feature extraction (we used five MPEG-7 features) using the European EGEE computer GRID. The result of this effort is CoPhIR, the first CBIR test collection of such scale. CoPhIR is now open to the research community for experiments and comparisons, and access to the collection was already granted to more than 50 research groups worldwide.
研究动机与目标
- 解决缺乏大规模、公开可用的图像测试集以评估可扩展的内容基图像检索(CBIR)技术的问题。
- 通过提供一个包含1亿张图像的真实数据集,支持在网页规模下进行分布式相似性搜索研究。
- 通过将规模提升两个数量级,克服现有CBIR数据集通常仅包含数千张图像的局限性。
- 通过遵守Flickr的知识共享条款并实施访问控制,确保符合版权和许可要求。
- 通过保留用户提供的标签、评论和受欢迎程度元数据,支持混合文本-视觉搜索实验。
提出的方法
- 从Flickr爬取公开图像,Flickr是具有丰富元数据的可靠长期存储库,可获取高质量、多样化的图像。
- 利用EGEE GRID上的分布式计算,为每张图像提取五种标准化的MPEG-7视觉描述符——颜色、纹理和形状。
- 将图像元数据、描述符和原始Flickr条目标识链接以结构化XML文件形式存储,以实现高效访问和可复现性。
- 通过注册和签署访问协议,实施受控访问模式,确保符合知识共享和欧盟/知识产权法律要求。
- 将数据集组织为可搜索、版本控制的集合,包含地理位置、受欢迎程度(浏览量/收藏数)和社会元数据。
- 在SAPIR项目内使用点对点基础设施,将处理管道扩展至分布式计算资源。
实验结果
研究问题
- RQ1能否系统性地构建一个大规模、公开可用的图像测试集,以支持可扩展的CBIR研究?
- RQ2在1亿张图像的数据集中,视觉特征、受欢迎程度和社会元数据的分布与较小规模数据集相比有何差异?
- RQ3在爬取、处理和存储包含丰富描述符的1亿张图像时,面临哪些技术和基础设施挑战?
- RQ4在如此大规模的数据集上,现有CBIR算法在多大程度上可以被有效评估和比较?
- RQ5在大规模图像测试集中,如何有效管理版权和许可约束?
主要发现
- CoPhIR 是首个公开可用的1亿张图像的CBIR测试集,每张图像均提取了MPEG-7特征,其规模相比典型基准数据集提升了两个数量级。
- 数据集中包含66,532,213张图像(占62.77%)具有受欢迎程度元数据(浏览量和收藏数),平均每张图像有41.7次浏览,最高的一张图像获得599,584次浏览。
- 8.17%(8,655,289张图像)具有地理位置元数据,支持空间分析和位置感知检索实验。
- 仅有1.14%的图像拥有六条或以上评论和六条或以上标签,表明大多数图像的社会元数据极少。
- 该数据集已获得全球超过50个研究团队的访问,证明其在研究社区中具有广泛采用和实用价值。
- EGEE GRID的使用使1亿张图像的处理在合理的时间内完成,避免了在普通PC上预计需12年才能完成的耗时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。