QUICK REVIEW

[论文解读] The New Data and New Challenges in Multimedia Research.

Bart Thomée, David A. Shamma|arXiv (Cornell University)|Mar 5, 2015

Advanced Image and Video Retrieval Techniques参考文献 18被引用 249

一句话总结

该论文介绍了 Yahoo Flickr Creative Commons 100 Million Dataset（YFCC100M），这是一个公开可用的多媒体数据集，包含1亿张照片和视频，采用知识共享许可协议，时间跨度从2004年到2014年。该数据集提供丰富的元数据，支持大规模多媒体研究，为内容理解、表征和分享模式研究带来了新的挑战与机遇。

ABSTRACT

We present the Yahoo Flickr Creative Commons 100 Million Dataset (YFCC100M), the largest public multimedia collection that has ever been released. The dataset contains a total of 100 million media objects, of which approximately 99.2 million are photos and 0.8 million are videos, all of which carry a Creative Commons license. Each media object in the dataset is represented by several pieces of metadata, e.g. Flickr identifier, owner name, camera, title, tags, geo, media source. The collection provides a comprehensive snapshot of how photos and videos were taken, described, and shared over the years, from the inception of Flickr in 2004 until early 2014. In this article we explain the rationale behind its creation, as well as the implications the dataset has for science, research, engineering, and development. We further present several new challenges in multimedia research that can now be expanded upon with our dataset.

研究动机与目标

创建最大规模的公开多媒体数据集以支持研究，推动大规模多媒体理解与内容分享研究。
提供从Flickr创立之初到2014年用户生成照片和视频内容的全面、长期快照。
通过提供可扩展、多样化且标注完善的标准化元数据数据集，支持科学与工程进步。
识别并确立从分析如此大规模真实世界数据集所引出的多媒体研究新挑战。

提出的方法

从Flickr收集1亿个媒体对象，包括9920万张照片和80万段视频，所有内容均采用知识共享许可协议。
提取并结构化每个媒体对象的丰富元数据，包括Flickr ID、拥有者姓名、相机型号、标题、标签、地理位置和媒体来源。
从Flickr的公共API和数据库转储中聚合数据，覆盖2004年至2014年初的时间范围。
设计标准化的数据模式，以确保在多样化研究应用中的统一性与可用性。
将数据集作为公共资源发布，以支持可复现研究和社区驱动的创新。
基于数据集的规模、多样性与元数据丰富性，识别新兴的研究挑战。

实验结果

研究问题

RQ1如何有效收集并结构化大规模真实世界多媒体数据，以支持广泛的研究应用？
RQ2分析1亿个用户生成的媒体对象时，会引出哪些多媒体理解与内容表征方面的新挑战？
RQ3标签、地理位置和用户提供的标题等元数据如何反映人类对内容的感知与描述模式？
RQ4从2004年到2014年，关于照片和视频分享行为的长期趋势可获得哪些洞察？
RQ5公共的、带许可的多媒体数据集如何促进计算机视觉与多媒体系统中可扩展且可复现的研究？

主要发现

YFCC100M 数据集包含1亿个媒体对象，其中9920万张为照片，80万段为视频，所有内容均采用知识共享许可协议。
该数据集提供了2004年至2014年初用户生成内容的全面、长期视图，捕捉了内容分享与描述行为的演变。
每个媒体对象均包含多个元数据字段，包括标题、标签、地理位置、相机信息和拥有者信息，支持深入分析。
该数据集为多媒体理解研究带来了新挑战，例如跨模态检索、视觉-语义嵌入和内容偏差检测。
如此大规模、公开且结构清晰的数据集的可用性，为多媒体系统中的可扩展与可复现研究开辟了新途径。
该数据集为推动计算机视觉、自然语言处理和社会媒体分析等领域的研究奠定了基础。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。