[논문 리뷰] Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations
비주얼 지놈은 객체, 속성, 관계를 포함한 밀집하게 주석된 이미지 데이터셋과 영역 및 장면 그래프, 영역 기반 QA를 제공하여 인지적 장면 이해를 가능하게 한다.
Despite progress in perceptual tasks such as image classification, computers still perform poorly on cognitive tasks such as image description and question answering. Cognition is core to tasks that involve not just recognizing, but reasoning about our visual world. However, models used to tackle the rich content in images for cognitive tasks are still being trained using the same datasets designed for perceptual tasks. To achieve success at cognitive tasks, models need to understand the interactions and relationships between objects in an image. When asked "What vehicle is the person riding?", computers will need to identify the objects in an image as well as the relationships riding(man, carriage) and pulling(horse, carriage) in order to answer correctly that "the person is riding a horse-drawn carriage". In this paper, we present the Visual Genome dataset to enable the modeling of such relationships. We collect dense annotations of objects, attributes, and relationships within each image to learn these models. Specifically, our dataset contains over 100K images where each image has an average of 21 objects, 18 attributes, and 18 pairwise relationships between objects. We canonicalize the objects, attributes, relationships, and noun phrases in region descriptions and questions answer pairs to WordNet synsets. Together, these annotations represent the densest and largest dataset of image descriptions, objects, attributes, relationships, and question answers.
연구 동기 및 목표
- 객체 인식에서 벗어나 이미지의 상호 작용과 관계를 모델링하여 인지적 장면 이해를 추진한다.
- 영역 수준의 밀집 주석(객체, 속성, 관계)을 WordNet synsets로 정형화한다.
- 시각적 개념을 언어에 연결하고 영역 그래프와 장면 그래프와 같은 구조적 표현을 가능하게 한다.
- 설명을 paired with 영역 기반 QA 세트와 자유형 질문-대답을 연결하여 비전과 NLP 과제를 연결한다.
- 광범위하고 다양한 데이터세트를 만들어 포괄적 시각 추론을 위한 모델 벤치마크를 제공한다.
제안 방법
- 각 이미지에 대해 바운딩 박스를 포함한 밀집 영역 설명을 수집한다(이미지당 평균 42개).
- 영역당 객체, 속성, 관계를 WordNet synsets로 추출하고 정형화한다.
- 영역 주석으로부터 영역 그래프를 구성하고 각 이미지에 대해 통합된 장면 그래프를 생성한다.
- 설명과 영역 기반 및 자유 형식 질문-답변 세트를 매칭한다(영역 기반 QA).
- 다중 작업 단계와 품질 관리가 있는 Amazon Mechanical Turk를 통한 크라우드소싱 데이터 수집.
- 총 7개 데이터 구성요소를 제공한다: 영역 설명, 객체, 속성, 관계, 영역 그래프, 장면 그래프, QA 쌍.
실험 결과
연구 질문
- RQ1객체, 속성, 관계를 밀집하게 주석하여 인지적 이해를 가능하게 하려면 어떻게 해야 하는가?
- RQ2언어를 기반으로 한 영역 그래프와 장면 그래프가 시각적 추론 과제(예: QA)를 향상시킬 수 있는가?
- RQ3밀집한 영역 기반 설명과 QA가 시각적 개념을 NLP 표현으로 grounding하는 데 어떤 영향을 미치는가?
- RQ4WordNet synset 정형화가 이미지 간 질의 및 지식 이전에 어떤 도움을 줄 수 있는가?
- RQ5포괄적 장면 이해를 향해 필요한 주석의 규모와 다양성은 얼마나 되는가?
주요 결과
- 데이터세트는 108,249개 이미지에 대해 이미지당 평균 약 21개의 객체, 18개의 속성, 18개의 관계를 포함한다.
- 각 이미지당 약 42개의 영역 설명과 17개의 영역 기반 QA 쌍이 평균적으로 포함된다.
- 전체적으로 170만 개의 QA 쌍이 수집되어 기존 QA 데이터세트의 규모를 능가한다.
- 객체, 속성, 관계는 표준화된 질의 가능성을 위해 WordNet synsets로 정형화된다.
- 영역별 그래프(영역당)와 이미지당 결합된 장면 그래프는 구조화된 표현을 제공한다.
- Visual Genome은 이미지 내의 여러 “스토리”를 포착하기 위해 밀집하고 영역 기반의 설명을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.