QUICK REVIEW

[논문 리뷰] Hierarchical Question-Image Co-Attention for Visual Question Answering

Jiasen Lu, Jianwei Yang|arXiv (Cornell University)|2016. 05. 31.

Multimodal Machine Learning Applications참고 문헌 24인용 수 1,216

한 줄 요약

이 논문은 단어 수준, 구, 질문 수준에서 이미지 영역과 질문 단어를 공동으로 주의하는 계층적 공동 주의 모델을 제시하고, 병렬 또는 교대 공동 주의를 사용하여 Visual Question Answering 성능을 향상시킨다.

ABSTRACT

A number of recent works have proposed attention models for Visual Question Answering (VQA) that generate spatial maps highlighting image regions relevant to answering the question. In this paper, we argue that in addition to modeling "where to look" or visual attention, it is equally important to model "what words to listen to" or question attention. We present a novel co-attention model for VQA that jointly reasons about image and question attention. In addition, our model reasons about the question (and consequently the image via the co-attention mechanism) in a hierarchical fashion via a novel 1-dimensional convolution neural networks (CNN). Our model improves the state-of-the-art on the VQA dataset from 60.3% to 60.5%, and from 61.6% to 63.3% on the COCO-QA dataset. By using ResNet, the performance is further improved to 62.1% for VQA and 65.4% for COCO-QA.

연구 동기 및 목표

비주얼 어텐션(어디를 바라볼지)과 질문 어텐션(어떤 단어를 들을지)을 VQA에서 모두 다루고 동기화한다.
이미지와 질문 어텐션을 공동으로 추론하는 공동 어텐션 메커니즘을 제안한다.
새로운 구 수준 합성 전략을 갖춘 단어-구-질문의 3단계 계층적 질문 표현을 도입한다.
병렬 및 교대 공동 주의 변형을 개발하고 대규모 VQA와 COCO-QA 데이터셋에서 검증한다.

제안 방법

이미지 영역 V와 질문 단어 Q 사이의 다중 모달 어피니티 C를 정의한다.
병렬 공동 주의(방정식 3-5) 또는 교대 공동 주의(섹션 3.3 및 방정식 6)를 사용하여 단어, 구, 질문 수준에서 공동 주의 특성을 계산한다.
unigram, bigram, trigram 윈도우를 통한 1-D CNN과 최대풀링으로 구 표현을 구성한다(방정식 1-2).
단어 임베딩, 구-수준 LSTM, 질문-수준 LSTM으로 계층적 질문 표현을 인코딩한다( Sec. 3.2).
모든 레벨에서 주의된 이미지 및 질문 특징을 재귀적으로 융합하여 최종 정답을 예측하는 MLP를 통해(Eq. 7 및 Sec. 3.4).
VQA 및 COCO-QA 데이터셋에서 평가하고 최첨단 방법과 비교하며(표 1–3의 분석 포함) 정성적 시각화를 제시한다(Fig. 4–6).

실험 결과

연구 질문

RQ1공동 이미지-질문 공동 주의가 시각적 주의만으로는 달성할 수 없는 VQA 성능 향상을 가져올 수 있는가?
RQ2세 수준의 계층적 질문 표현(단어, 구, 질문)을 도입하면 주의된 특성과 최종 답변의 품질이 향상되는가?
RQ3병렬 및 교대 공동 주의 전략은 성능 및 학습 안정성 측면에서 어떻게 비교되는가?
RQ4구-레벨 합성(컨볼루션) 대 비컨볼루션 구 표현은 성능에 어떤 영향을 미치는가?

주요 결과

제안된 공동 주의 모델은 ResNet 특성을 사용할 때 VQA 및 COCO-QA 데이터셋에서 최첨단 결과를 향상시킨다.
병렬 공동 주의는 COCO-QA에서 일반적으로 교대 공동 주의보다 더 잘 작동하며, 두 경우 모두 이미지 전용 주의 기반보다 우수하다.
단어, 구, 질문의 세 수준 계층 구조와 각 수준에서의 공동 주의가 없는 모델보다 성능 향상을 제공하며, 특히 최상위 수준인 질문 수준이 성능에 가장 큰 기여를 한다.
구-레벨 합성은 정보량이 많은 n-gram을 선택적으로 추출하여 구 표현을 향상시키며 고정 크기 윈도우 대비 효과적이다.
일부 주의 레벨을 제거하면 성능이 감소하는 것으로 나타났으며, 특히 질문 수준 주의가 가장 큰 영향을 미쳐 정답 예측기에 가장 근접한 것으로 나타났다.
정성적 시각화는 해석 가능한 공동 주의 맵이 관련 이미지 영역 및 질문 구문과 일치함을 보여준다。

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.