Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Entailment: A Novel Task for Fine-Grained Image Understanding

Ning Xie, Farley Lai|arXiv (Cornell University)|2019. 01. 20.
Multimodal Machine Learning Applications참고 문헌 73인용 수 162
한 줄 요약

이 논문은 Visual Entailment(VE)을 소개하며, 이미지 전제어를 사용해 자연어 가설이 함의되는지, 중립인지, 반박되는지를 판단하는 교차 모달 작업을 다루고, SNLI-VE 데이터셋과 Explainable Visual Entailment(EVE) 모델을 제시한다.

ABSTRACT

Existing visual reasoning datasets such as Visual Question Answering (VQA), often suffer from biases conditioned on the question, image or answer distributions. The recently proposed CLEVR dataset addresses these limitations and requires fine-grained reasoning but the dataset is synthetic and consists of similar objects and sentence structures across the dataset. In this paper, we introduce a new inference task, Visual Entailment (VE) - consisting of image-sentence pairs whereby a premise is defined by an image, rather than a natural language sentence as in traditional Textual Entailment tasks. The goal of a trained VE model is to predict whether the image semantically entails the text. To realize this task, we build a dataset SNLI-VE based on the Stanford Natural Language Inference corpus and Flickr30k dataset. We evaluate various existing VQA baselines and build a model called Explainable Visual Entailment (EVE) system to address the VE task. EVE achieves up to 71% accuracy and outperforms several other state-of-the-art VQA based models. Finally, we demonstrate the explainability of EVE through cross-modal attention visualizations. The SNLI-VE dataset is publicly available at https://github.com/ necla-ml/SNLI-VE.

연구 동기 및 목표

  • VQA 데이터셋에서 발견되는 편향을 완화하는 교차 모달 추론 작업의 필요성을 제시한다.
  • 이미지 전제가 가설의 진실성을 결정하는 Visual Entailment(VE)를 소개한다.
  • VE를 위한 실제 세계 이미지와 SNLI 기반 가설 데이터셋인 SNLI-VE를 만든다.
  • 교차 모달 추론을 밝히기 위해 주의(attention)를 사용하는 해설 가능한 VE 모델(EVE)을 개발한다.

제안 방법

  • 이미지 전제와 텍스트 가설을 가진 삼분류(함의, 중립, 모순) 작업으로 VE를 정의한다.
  • Flickr30k 이미지와 SNLI 가설을 짝지어 SNLI-VE를 구성하되 분할이 서로 겹치지 않고 편향을 고려한다.
  • 텍스트와 이미지 영역에 대한 자체 주의(self-attention)를 가진 이중 가지 모델 EVE를 제안하고, 교차 모달 융합을 위한 텍스트-이미지 주의도 포함한다.
  • GloVe 임베딩과 Adam 최적화를 사용하여 EVE를 VQA 기반 기준선 및 이미지 캡션링 기반 기준선과 비교한다.
  • 모델의 해석 가능성을 보여주기 위해 주의 시각화를 제공한다.

실험 결과

연구 질문

  • RQ1SNLI 스타일 가설과 쌍을 이루는 실제 세계 이미지가 함의, 중립, 또는 모순으로 신뢰성 있게 분류될 수 있는가?
  • RQ2교차 모달 주의 메커니즘이 VE 정확도를 VQA 기반 기준선보다 향상시키는가?
  • RQ3설명 가능한 주의 기반 VE 모델이 SNLI-VE에서 최첨단 VQA 성능에 상응하거나 이를 능가하는가?
  • RQ4이미지 특징(전체 맵 대 ROI)이 VE 성능과 해석 가능성에 어떻게 영향을 미치는가?

주요 결과

  • EVE-Image는 최대 71.56%의 검증 정확도와 71.16%의 테스트 정확도를 달성하여 여러 기준선보다 우수하다.
  • EVE-ROI는 70.81%의 검증 및 70.47%의 테스트 정확도를 달성하며, 자체 주의와 교차 모달 주의가 도움이 됨을 보인다. 주의 기반 모델이 SNLI-VE에서 표준 VQA 기준선보다 성능이 우수하다.
  • 가설-만 기반 기준선은 약 66-67%의 정확도에 도달하여 데이터의 내재적 편향과 이미지 기반 추론의 필요성을 시사한다.
  • 전제 소스로서 이미지 설명은 가설-만 기준선에 비해 아주 약간의 이익만을 제공하여, 설명이 VE에 필요한 중요한 세부 정보를 놓칠 수 있음을 시사한다.
  • 전통적인 Relational Networks는 SNLI-VE에서 제한된 향상만을 제공하여, 더 풍부한 교차 모달 상호작용 모델링의 필요성을 강조한다.
  • EVE 모델은 이미지 영역을 가설과 연결하는 해석 가능한 주의 시각화를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.