Skip to main content
QUICK REVIEW

[論文レビュー] Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations

Ranjay Krishna, Yuke Zhu|arXiv (Cornell University)|Feb 23, 2016
Multimodal Machine Learning Applications被引用数 251
ひとこと要約

Visual Genome は、オブジェクト、属性、関係を含む密に注釈つけられた画像データセットと、領域・シーングラフ、および領域ベースのQA を提供し、認知的なシーン理解を可能にします。

ABSTRACT

Despite progress in perceptual tasks such as image classification, computers still perform poorly on cognitive tasks such as image description and question answering. Cognition is core to tasks that involve not just recognizing, but reasoning about our visual world. However, models used to tackle the rich content in images for cognitive tasks are still being trained using the same datasets designed for perceptual tasks. To achieve success at cognitive tasks, models need to understand the interactions and relationships between objects in an image. When asked "What vehicle is the person riding?", computers will need to identify the objects in an image as well as the relationships riding(man, carriage) and pulling(horse, carriage) in order to answer correctly that "the person is riding a horse-drawn carriage". In this paper, we present the Visual Genome dataset to enable the modeling of such relationships. We collect dense annotations of objects, attributes, and relationships within each image to learn these models. Specifically, our dataset contains over 100K images where each image has an average of 21 objects, 18 attributes, and 18 pairwise relationships between objects. We canonicalize the objects, attributes, relationships, and noun phrases in region descriptions and questions answer pairs to WordNet synsets. Together, these annotations represent the densest and largest dataset of image descriptions, objects, attributes, relationships, and question answers.

研究の動機と目的

  • 画像内の相互作用と関係をモデル化することによって、物体認識を超えた認知的なシーン理解へ動機づける。
  • 物体、属性、関係を含む密な領域レベルの注釈を、WordNetの同義語集合(synsets)に正規化して提供する。
  • 視覚概念を言語に結びつけ、構造化表現(領域グラフとシーングラフ)を可能にする。
  • 説明と対をなす領域ベースのQAを提供し、視覚と言語処理タスクを橋渡しする。
  • 包括的な視覚的推論のベンチマークとなる、巨大で多様なデータセットを作成する。

提案手法

  • 各画像について、境界ボックスとともに密な領域説明を収集する(1画像あたり平均42件)。
  • 領域ごとに物体・属性・関係を抽出・正規化し、WordNetのsynsetに統一する。
  • 領域レベルの注釈から領域グラフを構築し、各画像について統一のシーングラフを作成する。
  • 説明と、領域ベースおよび自由形式の問答セットを組み合わせる(領域ベースQA)。
  • 複数のタスク段階と品質管理を備えたAmazon Mechanical Turkを通じてクラウドソースする。
  • 7つのデータ成分を提供する:領域説明、物体、属性、関係、領域グラフ、シーングラフ、QAペア。

実験結果

リサーチクエスチョン

  • RQ1物体、属性、関係を密に注釈して、認知的理解を可能にするにはどうすればよいか?
  • RQ2言語に結び付けられた領域グラフとシーングラフは、QAのような視覚的推論タスクを改善できるか?
  • RQ3密な領域ベースの説明とQAが、視覚概念をNLP表現へ結びつける影響はどの程度か?
  • RQ4WordNetのsynset正規化は、画像横断のクエリと知識移転にどう役立つか?
  • RQ5包括的なシーン理解へ進むには、どの程度の規模と多様性の注釈が必要か?

主な発見

  • データセットは108,249枚の画像をカバーし、各画像の平均物体21、属性18、関係18である。
  • 各画像には約42の領域説明と平均で17の領域ベースQAペアを含む。
  • 総計170万のQAペアを収集し、既存のQAデータセットの規模を上回っている。
  • 物体、属性、関係は標準化されたクエリを可能にするためWordNetのsynsetに正規化されている。
  • 領域ごとの領域グラフと、画像ごとの結合シーングラフが、構造化表現を提供する。
  • Visual Genomeは、画像内の複数の“ストーリー”を捉えるために、密な領域ベースの説明を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。