[논문 리뷰] Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering
논문은 지식 베이스의 여러 사실들을 공동으로 추론하는 그래프 컨볼루션 네트워크(GCN) 기반 방법을 제시하여 사실 기반 VQA 질문에 답하고, FVQA에서 최첨단보다 약 7% 포인트 향상시켰다.
Accurately answering a question about a given image requires combining observations with general knowledge. While this is effortless for humans, reasoning with general knowledge remains an algorithmic challenge. To advance research in this direction a novel `fact-based' visual question answering (FVQA) task has been introduced recently along with a large set of curated facts which link two entities, i.e., two possible answers, via a relation. Given a question-image pair, deep network techniques have been employed to successively reduce the large set of facts until one of the two entities of the final remaining fact is predicted as the answer. We observe that a successive process which considers one fact at a time to form a local decision is sub-optimal. Instead, we develop an entity graph and use a graph convolutional network to `reason' about the correct answer by jointly considering all entities. We show on the challenging FVQA dataset that this leads to an improvement in accuracy of around 7% compared to the state of the art.
연구 동기 및 목표
- 시각적 관찰과 일반 지식 간의 간극을 구조화된 사실 지식 베이스를 활용해 VQA에서 해소한다.
- 단일 사실 검색을 넘어서 다중 후보 사실에 대한 공동 추론으로 확장한다.
- 유의어/동음이의어에 강건하게 관련 사실을 검색하기 위해 단어 임베딩을 활용한다.
- 그래프 구조적 추론을 도입해 FVQA 데이터셋에서 정확도를 향상시킨다.
- 사실 그래프에서의 공유 정보 전파를 통해 설명가능성을 개선한다.
제안 방법
- 질문-이미지 쌍의 코사인 유사도 비교를 통해 질문, 이미지 개념, 사실 단어 간 GloVe 임베딩으로 상위 100개 후보 사실을 검색한다.
- 질문의 예측 관계와 일치하는 관계를 가진 사실들로 축소한다.
- 후보 사실들에서 고유한 엔티티로 구성된 엔티티 그래프를 구성하고, 같은 사실에 등장하는 엔티티를 간선으로 연결한다.
- 각 노드를 이미지 개념, 질문, 엔티티 임베딩의 연결로 표현하고 Graph Convolutional Network를 실행해 노드 표현을 생성한다.
- GCN 출력치를 ML P에 전달해 어떤 노드(엔티티)가 답인지 예측한다.
- 관계 예측기와 답 예측기를 각각 학습시키고, 최종적으로 답 예측기에 대해 엔드-투-엔드로 학습한다.
실험 결과
연구 질문
- RQ1KB 사실의 하위 그래프에 대해 GCN으로 추론하는 것이 단일 사실 검색 방식보다 FVQA 스타일의 시각 질문 응답을 향상시키는가?
- RQ2다중 후보 사실에 대한 공동 추론이 동의어 및 다의어를 다루는 데 기존 접근법보다 도움이 되는가?
- RQ3질문/시각 개념/엔티티 임베딩을 포함하는 것이 GCN 기반 프레임워크의 정답 정확도에 미치는 영향은 무엇인가?
주요 결과
| 모델 | @1 정확도 | @3 정확도 |
|---|---|---|
| FVQA 기준선 (Wang et al. 2018 FVQA) | 56.91 | 64.65 |
| STTF (사실로 바로) | 62.20 | 75.60 |
| 저희 방법(최종 차별화 13: Q, VC, 엔티티, GCN, gt 관계) | 72.97 | 83.01 |
| 사람 | 77.99 | - |
- 제안된 GCN 기반 방법이 FVQA 데이터셋에서 최첨단 대비 약 7%의 정확도 향상을 보인다.
- 상위 100개 사실에서 관계 필터링으로 도출된 최대 200개 엔티티의 하위 그래프를 사용하면 정답 사실의 재현율이 높아(상위 100에서 84.8%)는 결과를 보인다.
- 시각 개념 특징의 포함이 성능을 크게 향상시키며(추가 시≈20% 개선) 효과를 발휘한다.
- 최적의 차별화 구성(질문, 시각 개념, 엔티티 임베딩 포함, 2개의 GCN 층 및 MLP 사용)에서 FVQA에서 Top-1 정확도 72.97% 및 Top-3 정확도 83.01%를 달성한다.
- 유의어 및 동음이의어 처리를 Glove 임베딩으로 수행하면 질문-사실 매칭이 개선되며 동의어 질문과 동음이의어에 대한 키워드 기반 baselines를 능가한다.
- 사실 검색, 관계 예측, GCN 기반 정답 예측의 3단계 프로세스는 견고하며, 실패 원인은 주로 어느 한 단계의 오류에서 발생한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.