QUICK REVIEW

[논문 리뷰] Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks

Guohao Li, Hang Su|arXiv (Cornell University)|2017. 12. 03.

Multimodal Machine Learning Applications참고 문헌 29인용 수 41

한 줄 요약

이 논문은 지식 그래프를 통해 외부 지식을 동적 메모리 네트워크를 통해 통합함으로써 개방형 시각질의질의응답(VQA) 성능을 햖스르는 지식 통합 동적 메모리 네트워크(KDMN)를 제안한다. 연속적인 메모리 공간에 관련 사실을 검색하고 임bedding하여 시각적 정보와 외부 지식을 다단계로 추론하도록 하여, 특히 세계 지식이 필요한 복잡한 질문에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Visual Question Answering (VQA) has attracted much attention since it offers insight into the relationships between the multi-modal analysis of images and natural language. Most of the current algorithms are incapable of answering open-domain questions that require to perform reasoning beyond the image contents. To address this issue, we propose a novel framework which endows the model capabilities in answering more complex questions by leveraging massive external knowledge with dynamic memory networks. Specifically, the questions along with the corresponding images trigger a process to retrieve the relevant information in external knowledge bases, which are embedded into a continuous vector space by preserving the entity-relation structures. Afterwards, we employ dynamic memory networks to attend to the large body of facts in the knowledge graph and images, and then perform reasoning over these facts to generate corresponding answers. Extensive experiments demonstrate that our model not only achieves the state-of-the-art performance in the visual question answering task, but can also answer open-domain questions effectively by leveraging the external knowledge.

연구 동기 및 목표

이미지 내용을 초월해 외부 세계 지식이 필요한 개방형 질문에 대해 기존 VQA 모델의 한계를 해결하기 위해.
신경 메모리 기반 기법을 사용해 구조화된 지식 기반과 시각 입력 간의 다단계 추론을 가능하게 하기 위해.
배경 지식을 통합함으로써 특히 Who, What, Why 유형의 복잡한 시각 질문 성능을 향상시키기 위해.
시각적 특징과 지식 그래프 임베딩을 동적 메모리 모듈에서 통합적으로 인코딩하는 통합 프레임워크를 설계하기 위해.

제안 방법

이미지 객체와 질문 키워드를 쿼리로 사용하여 외부 지식 기반(예: Freebase)에서 관련 지식 삼중항을 검색한다.
엔티티-관계 구조를 유지하는 지식 임베딩 모델을 사용해 검색된 지식 삼중항을 연속적인 벡터 공간에 임베딩한다.
동적 메모리 네트워크가 시각적 특징(Faster R-CNN에서 유도)과 임bedded된 지식 사실을 동시에 주시함으로써 다단계 메모리 힙을 거쳐 반복적 추론을 수행한다.
각 단계에서 시각적 입력과 지식 입력의 관련성을 가중치로 평가하는 주의 메커니즘을 통해 에피소딕 메모리 벡터를 갱신한다.
시각적 표현과 지식 표현을 공유 잠재 공간에서 융합하고, 공동 표현에 대해 소프트 주의 메커니즘을 통해 최종 답변을 예측한다.
공유 초모수를 사용한 엔드 투 엔드 학습을 지원하며, 표준 및 커스터마이즈된 개방형 VQA 벤치마크에서 평가된다.

실험 결과

연구 질문

RQ1딥 러닝 기반 VQA 시스템이 이미지 내용을 초월해 외부 세계 지식이 필요한 개방형 질문을 효과적으로 해결할 수 있는가?
RQ2지식 그래프에서 유도된 구조화된 지식을 신경망 아키텍처에서 어떻게 효과적으로 시각적 특징과 융합할 수 있는가?
RQ3동적 메모리 네트워크의 사용이 시각질의질의응답에서 다수의 사실에 대한 추론 성능을 향상시키는가?
RQ4외부 지식은 Who, What, Why와 같은 복잡한 질문 유형에서 성능 향상에 얼마나 기여하는가?

주요 결과

KDMN의 전면 모델은 Visual7W 데이터셋에서 평균 정확도 66.0%를 기록하였으며, KDMN-NoKG 기준 4.0% 향상되고 KDMN-NoMem 기준 1.6% 향상되었다.
개방형 VQA에서 KDMN는 57.8%의 정확도를 기록하였으며, KDMN-NoKG 대비 12.7% 향상되었으며, 이 중 6.8%는 외부 지식 덕분이고 5.9%는 메모리 메커니즘 덕분이었다.
Who(5.9%)와 What(4.9%) 질문에서 성능 향상이 가장 크게 나타나, 다양한 지식 중심 질문에 대해 외부 지식 통합의 강력한 이점이 있음을 시사한다.
다양한 초기화에서 학습된 다수의 KDMN 모델을 앙상블함으로써 Visual7W에서 69.4%, 개방형 데이터셋에서 60.9%의 성능으로 향상되었다.
제거 실험 결과 동적 메모리 네트워크와 외부 지식 통합이 모두 필수적임을 확인하였으며, KDMN-NoMem은 KDMN-NoKG보다 2.4% 높은 성능을 기록하여 메모리 강화 추론의 가치를 입증했다.
정성적 사례 분석을 통해 모델이 교통 신호의 기능이나 동물의 식습관과 같은 도메인 지식이 필요한 질문을 성공적으로 해결하며, 외부 사실을 검색하고 추론하는 데 성공했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.