[논문 리뷰] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources
이 논문은 깊이 학습과 외부 지식 기반 시스템을 융합하여 이미지에 대한 복잡하고 자유형 질문에 답할 수 있는 시각질의 질문 응답(VQA) 모델을 제안한다. 이는 답이 이미지 내용을 초월한 외부 지식이 필요할 경우에도 작동한다. 이미지 설명, 검출된 속성, 지식 기반 시스템 쿼리의 융합을 Doc2Vec과 LSTM을 통해 수행함으로써, 이 모델은 도시 코코-QA에서 69.73% 및 VQA 평가 서버에서 59.44%의 최신 기술 성능(SOTA)을 달성한다.
We propose a method for visual question answering which combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-based questions. This allows more complex questions to be answered using the predominant neural network-based approach than has previously been possible. It particularly allows questions to be asked about the contents of an image, even when the image itself does not contain the whole answer. The method constructs a textual representation of the semantic content of an image, and merges it with textual information sourced from a knowledge base, to develop a deeper understanding of the scene viewed. Priming a recurrent neural network with this combined information, and the submitted question, leads to a very flexible visual question answering approach. We are specifically able to answer questions posed in natural language, that refer to information not contained in the image. We demonstrate the effectiveness of our model on two publicly available datasets, Toronto COCO-QA and MS COCO-VQA and show that it produces the best reported results in both cases.
연구 동기 및 목표
- 이미지 내용을 초월한 지식이 필요한 복잡하고 개방형 질문에 답할 수 있도록 시각질의 질문 응답 시스템을 개선하는 것.
- 일반 목적의 지식 기반 시스템(DBpedia 등)에서 외부 지식을 신경망 기반 VQA 프레임워크에 통합하는 것.
- 공동 지식이나 세계 지식이 필요한 질문, 예를 들어 '왜'와 '어디서' 질문의 성능을 향상시키는 것.
- 시각적, 텍스트적, 지식 기반 표현을 통합하는 일반화 가능한 종단 간 훈련이 가능한 아키텍처를 개발하는 것.
제안 방법
- 입력 이미지에서 고수준의 이미지 속성(예: 객체, 장면, 동작 등)을 추출하기 위해 CNN을 사용한다.
- 검출된 속성 기반으로 다수의 기술적 설명 문장을 생성하는 최신 기술의 이미지 설명 모델을 사용한다.
- 상위 5개 속성에 대해 RDF 기반 지식 기반 시스템(예: DBpedia)에서 관련 텍스트 정보를 검색하기 위한 SPARQL 쿼리를 생성한다.
- 지식 기반 시스템에서 검색된 텍스트 스니펫은 Doc2Vec를 사용해 고정 길이의 벡터로 인코딩된다.
- 이미지 속성, 생성된 설명문, Doc2Vec로 인코딩된 지식 기반 시스템 내용이 연결되어 최종 답변을 생성하기 위해 LSTM 네트워크에 입력된다.
- 모델 전체가 훈련 세트의 정답 확률을 최대화하도록 종단 간 훈련된다.
실험 결과
연구 질문
- RQ1외부 지식 기반 시스템은 이미지 내용을 초월한 세계 지식이 필요한 질문에 대해 VQA 시스템의 성능을 향상시킬 수 있는가?
- RQ2신경망은 어떻게 시각적 속성, 이미지 설명문, 외부 지식 기반 시스템 정보를 융합하여 개방형 질문에 답할 수 있는가?
- RQ3속성, 설명문, 지식 기반 시스템을 포함한 다중 지식 소스 통합이 시각적 또는 텍스트적 특징만 사용하는 모델보다 유의미한 성능 향상을 이끌 수 있는가?
- RQ4특정 데이터셋에 맞게 지식 기반 시스템을 구축하지 않고도 일반 목적의 지식 기반 시스템(DBpedia)을 효과적으로 VQA에 활용할 수 있는가?
주요 결과
- 제안된 모델은 토리onto COCO-QA 데이터셋에서 기존 최신 기술 성능(55.92%)을 크게 뛰어넘는 69.73%의 최신 기술 정확도를 달성한다.
- VQA 평가 서버(test-standard)에서 전체 정확도 59.44%를 기록하여 이전에 보고된 모든 결과를 초월한다.
- '왜' 질문은 외부 공통 지식이 필요하므로, 지식 기반 시스템 통합이 추가될 경우 성능이 50% 이상 향상되며(7.77%에서 13.53%로), 전체 A+C+K-LSTM 모델에서 이를 확인할 수 있다.
- 이 모델은 모든 질문 유형에서 뛰어난 성능을 보이며, 특히 외부 지식에 크게 의존하는 '왜' 및 '어디서' 질문에서 두드러진 성능 향상을 보인다.
- 속성, 설명문, 지식 기반 시스템을 모두 사용하는 A+C+K-LSTM 모델은 이미지 및 질문 특징만 사용하거나 이미지 및 설명문 특징만 사용하는 모델보다 일관되게 뛰어난 성능을 보인다.
- VQA test-dev 세트에서의 전체 정확도는 59.17%이며, 예/아니요 질문은 81.01%, '기타' 카테고리는 45.23%로 나타나 강력한 일반화 능력을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.