QUICK REVIEW

[논문 리뷰] Graph Reasoning Networks for Visual Question Answering.

Dalu Guo, Chang Xu|arXiv (Cornell University)|2019. 07. 23.

Multimodal Machine Learning Applications참고 문헌 1인용 수 9

한 줄 요약

이 논문은 시각적 질문에 대한 답변을 위해 두 가지 그래프 구조를 통해 상호 객체 간 관계를 모델링함으로써 그래프 추론 네트워크(GRN)를 제안한다: 상호 그래프(inter-graph)는 질문 단어와 시각적 객체를 정렬하기 위한 것이고, 내부 그래프(intra-graph)는 객체 간 관계에 대한 추론을 수행하기 위한 것이다. 이 방법은 GQA v1.1에서 57.04%의 정확도로 최신 기준 성능을 달성하였으며, VQA 2.0의 세는 질문에서 뚜렷한 성능 향상을 보였다.

ABSTRACT

The interaction between language and visual information has been emphasized in visual question answering (VQA) with the help of attention mechanism. However, the relationship between words in question has been underestimated, which makes it hard to answer questions that involve the relationship between multiple entities, such as comparison and counting. In this paper, we develop the graph reasoning networks to tackle this problem. Two kinds of graphs are investigated, namely inter-graph and intra-graph. The inter-graph transfers features of the detected objects to their related query words, enabling the output nodes to have both semantic and factual information. The intra-graph exchanges information between these output nodes from inter-graph to amplify implicit yet important relationship between objects. These two kinds of graphs cooperate with each other, and thus our resulting model can reason the relationship and dependence between objects, which leads to realization of multi-step reasoning. Experimental results on the GQA v1.1 dataset demonstrate the reasoning ability of our method to handle compositional questions about real-world images. We achieve state-of-the-art performance, boosting accuracy to 57.04%. On the VQA 2.0 dataset, we also receive a promising improvement on overall accuracy, especially on counting problem.

연구 동기 및 목표

기존의 VQA 모델이 질문의 단어 간 언어적 관계를 충분히 활용하지 못하는 한계를 해결하기 위해.
비교, 세기, 종속성과 같은 복합 질문을 포함한 다수의 시각적 실체에 대한 추론을 향상시키기 위해.
시각적 객체와 질문 어휘 사이의 의미적 및 사실적 관계를 모두 포착하는 그래프 기반 아키텍처를 개발하기 위해.
두 가지 상호 보완적인 그래프에서의 메시지 전달을 통한 시각적 및 언어적 특징 융합을 통해 다단계 추론을 가능하게 하기 위해.

제안 방법

상호 그래프는 질문 단어에서 검출된 시각적 객체로 주의를 기울여, 시각적 특징을 질문과 관련된 노드로 전달함으로써 의미적으로 기반을 둔 표현을 형성한다.
내부 그래프는 상호 그래프에서 생성된 노드들 간에 메시지 전달을 수행하여 시각적 실체 간의 관계에 대한 추론을 가능하게 한다.
상호 및 내부 그래프 모두에서 그래프 신경망을 사용하여 이웃 노드 집합의 평균을 통해 노드 표현을 반복적으로 개선한다.
두 그래프를 스택하고 공동으로 훈련시켜 모델이 시각적 및 언어적 입력에 대해 다단계 추론을 수행할 수 있도록 한다.
두 그래프 모두에 주의 메커니즘을 적용하여 관련 특징과 관계를 동적으로 가중치를 부여한다.
최종 예측 헤드는 개선된 노드 표현을 집계하여 질문에 대한 답변을 생성한다.

실험 결과

연구 질문

RQ1질문의 단어 간 언어적 관계를 모델링하면 시각적 질문에 대한 추론 성능이 향상되는가?
RQ2신경망 아키텍처에서 시각적 객체 간 관계를 효과적으로 포착하고 추론할 수 있는가?
RQ3이중 그래프 구조(상호 및 내부 그래프)는 단일 주의 메커니즘보다 다단계 추론을 향상시키는가?
RQ4제안된 방법이 복합 질문, 특히 세는 질문과 비교 질문에서 성능을 얼마나 향상시키는가?
RQ5복잡한 시각적 관계를 포함한 실제 이미지에 대해 모델이 일반화 가능한가?

주요 결과

제안된 그래프 추론 네트워크는 GQA v1.1 데이터셋에서 최신 기준 성능인 57.04%의 정확도를 달성하였다.
모델은 VQA 2.0 벤치마크에서 세는 질문 관련 질문에서 뚜렷한 향상을 보이며 복합 추론 능력 향상을 시사한다.
이중 그래프 메커니즘은 질문에 직접 언급되지 않은 시각적 객체 간의 암묵적 관계를 효과적으로 포착한다.
내부 그래프 구성 요소는 객체 간 미세한 종속성을 강화하여 다단계 추론을 가능하게 한다.
비교 및 세는 질문을 포함한 복잡한 복합 질문에서 기존의 주의 기반 VQA 모델보다 성능이 뛰어나다.
제거 실험 결과, 상호 그래프 및 내부 그래프 구성 요소가 최종 성능 향상에 기여하는 바가 크다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.