QUICK REVIEW

[논문 리뷰] Learning Conditioned Graph Structures for Interpretable Visual Question Answering

Will Norcliffe-Brown, Efstathios Vafeias|arXiv (Cornell University)|2018. 06. 19.

Multimodal Machine Learning Applications인용 수 150

한 줄 요약

이 논문은 질문 조건 이미지 그래프를 구축하는 그래프 학습기를 도입하여 VQA를 위한 해석 가능한 그래프 컨볼루션을 가능하게 하고 VQA v2 테스트 세트에서 66.18% 정확도를 달성합니다.

ABSTRACT

Visual Question answering is a challenging problem requiring a combination of concepts from Computer Vision and Natural Language Processing. Most existing approaches use a two streams strategy, computing image and question features that are consequently merged using a variety of techniques. Nonetheless, very few rely on higher level image representations, which can capture semantic and spatial relationships. In this paper, we propose a novel graph-based approach for Visual Question Answering. Our method combines a graph learner module, which learns a question specific graph representation of the input image, with the recent concept of graph convolutions, aiming to learn image representations that capture question specific interactions. We test our approach on the VQA v2 dataset using a simple baseline architecture enhanced by the proposed graph learner module. We obtain promising results with 66.18% accuracy and demonstrate the interpretability of the proposed method. Code can be found at github.com/aimbrain/vqa-project.

연구 동기 및 목표

학습된 그래프를 통해 의미적 및 공간적 관계를 해석 가능하게 모델링하여 해석 가능한 VQA를 동기 부여합니다.
질문에 조건을 두어 관련 객체 상호 작용을 포착하는 그래프 학습기를 제안합니다.
학습된 그래프 위에서 그래프 컨볼루션을 통합하여 질문 인식 이미지 표현을 생성합니다.
학습된 노드와 엣지를 시각화하고 VQA v2의 베이스라인과 비교하여 해석 가능성을 입증합니다.

제안 방법

이미지를 객체 바운딩 박스와 특징 및 공간 좌표로 표현합니다.
질문을 단어 임베딩과 동적 GRU로 인코딩하여 q를 얻습니다.
[v; q]에서의 공동 임베딩 e를 통해 질문 조건 adjacency 행렬 A를 학습하고 A = EE^T이며 상위 m 이웃을 취해 희소화합니다.
가상의 좌표 u(i,j)에서 가우시안 커널을 사용하는 패치 연산자를 이용한 K- 커널 공간 그래프 컨볼루션으로 H를 생성합니다.
최대 풀링된 그래프 특징 h_max를 계산하고 q와 원소별 곱으로 융합한 뒤 2층 MLP로 분류합니다.
질문당 여러 개의 그럴듯한 답에 적합한 다중 레이블 소프트 손실로 학습합니다.

실험 결과

연구 질문

RQ1학습된 질문 조건 그래프 구조가 고정되거나 휴리스틱 그래프 구성에 비해 VQA의 추론을 향상시킬 수 있나요?
RQ2희소하고 해석 가능한 그래프 위에서의 그래프 기반 메시지 전달의 통합이 해석 가능성을 제공하면서 VQA v2에서 경쟁력 있는 정확도를 얻나요?

주요 결과

Answer type	All	Y/N	Num.	Other
ReasonNet	64.61	78.86	41.98	57.39
Bottom-Up	65.67	82.20	43.90	56.26
Counting module	68.41	83.56	51.39	59.11
kNN graph	61.00	79.35	41.63	49.70
Attention	61.90	79.87	42.48	50.95
Ours	66.18	82.91	47.13	56.22

VQA v2 테스트 세트에서 66.18% 정확도를 달성하여 최첨단 베이스라인과 경쟁력이 있습니다.
질문 특성의 희소 그래프 학습은 비그래프나 순진한 그래프 베이스라인에 비해 관련 객체와 관계에 대한 집중을 향상시킵니다.
그래프 주의력과 엣지 가중치는 모델이 의존하는 객체와 관계의 해석 가능한 시각화를 제공합니다.
일부 베이스라인에 비해 수치 계산형 질문에서 모델의 성능이 현저히 좋습니다.
k-최근접 이웃 그래프와 간단한 어텐션 베이스라인은 학습된 질문 조건 그래프에 의해 능가되었습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.