QUICK REVIEW

[論文レビュー] The New Data and New Challenges in Multimedia Research.

Bart Thomée, David A. Shamma|arXiv (Cornell University)|Mar 5, 2015

Advanced Image and Video Retrieval Techniques参考文献 18被引用数 249

ひとこと要約

本論文は、2004年から2014年までをカバーする、クリエイティブ・コモンズ・ライセンスのもとで公開されている1億枚の写真および動画からなる、Yahoo Flickr Creative Commons 100 Million Dataset (YFCC100M) を紹介する。このマルチメディアデータセットは、豊富なメタデータを備えており、コンテンツ理解、表現、共有パターンに関する大規模なマルチメディア研究を可能にし、新たな挑戦と機会を提供する。

ABSTRACT

We present the Yahoo Flickr Creative Commons 100 Million Dataset (YFCC100M), the largest public multimedia collection that has ever been released. The dataset contains a total of 100 million media objects, of which approximately 99.2 million are photos and 0.8 million are videos, all of which carry a Creative Commons license. Each media object in the dataset is represented by several pieces of metadata, e.g. Flickr identifier, owner name, camera, title, tags, geo, media source. The collection provides a comprehensive snapshot of how photos and videos were taken, described, and shared over the years, from the inception of Flickr in 2004 until early 2014. In this article we explain the rationale behind its creation, as well as the implications the dataset has for science, research, engineering, and development. We further present several new challenges in multimedia research that can now be expanded upon with our dataset.

研究の動機と目的

研究用に利用可能な最大規模のマルチメディアデータセットを構築し、マルチメディア理解およびコンテンツ共有に関する大規模な研究を可能にすること。
Flickrの創設から2014年までの間、ユーザーが生成した写真および動画コンテンツの包括的で長期的なスナップショットを提供すること。
標準化されたメタデータを備えたスケーラブルで多様性に富み、適切にアノテートされたデータセットを提供することで、科学的および工学的進歩を支援すること。
このような大規模で現実世界のデータセットを分析することで生じる、マルチメディア研究における新たな課題を特定し、枠組みを提示すること。

提案手法

Flickrから収集された1億個のメディアオブジェクト（写真9920万枚、動画80万本）を、すべてクリエイティブ・コモンズ・ライセンスのもとで収集。
各メディアオブジェクトに対して、Flickr ID、所有者名、カメラ機種、タイトル、タグ、地理的位置、メディアソースなどの豊富なメタデータを抽出・構造化。
FlickrのパブリックAPIおよびデータベースダンプからデータを統合し、2004年から2014年のはじめまでをカバー。
多様な研究応用分野において一貫性と利用可能性を確保するための標準化されたデータスキーマの設計。
研究の再現可能性とコミュニティ主導のイノベーションを支援するため、データセットを公開リソースとして提供。
データセットのスケール、多様性、メタデータの豊富さに基づき、新たな研究課題を同定。

実験結果

リサーチクエスチョン

RQ1大規模で現実世界のマルチメディアデータを、広範な研究用途に適した形で効果的に収集・構造化するにはどうすればよいか？
RQ21億個のユーザー生成メディアオブジェクトを分析することで、どのような新たな課題がマルチメディア理解およびコンテンツ表現分野に生じるか？
RQ3タグ、地理的位置、ユーザーが提供したタイトルといったメタデータは、人間の認知およびコンテンツ記述のパターンをどのように反映しているか？
RQ42004年から2014年までの期間にわたり、写真および動画の共有行動における長期的トレンドについて、どのようなインサイトが得られるか？
RQ5公開され、ライセンスが付与されたマルチメディアデータセットは、コンピュータビジョンおよびマルチメディアシステム分野におけるスケーラブルで再現可能な研究をどのように可能にするか？

主な発見

YFCC100M データセットは、1億個のメディアオブジェクト（写真9920万枚、動画80万本）を含み、すべてクリエイティブ・コモンズ・ライセンスのもとで提供されている。
このデータセットは、2004年から2014年のはじめまでにわたるユーザー生成コンテンツの包括的で長期的な視点を提供し、共有および記述行動の変化を捉えている。
各メディアオブジェクトは、タイトル、タグ、地理的位置、カメラ機種、所有者情報といった複数のメタデータフィールドで豊かに拡張されており、包括的な分析を可能にしている。
クロスモーダル検索、ビジュアル・セマンティック埋め込み、コンテンツバイアス検出といった、マルチメディア理解分野における新たな研究課題を可能にしている。
このような大規模で公開され、適切に構造化されたデータセットの存在は、マルチメディアシステム分野におけるスケーラブルで再現可能な研究の新たな道を開いている。
このデータセットは、コンピュータビジョン、自然言語処理、ソーシャルメディア分析分野における研究の発展を支える基盤となっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。