QUICK REVIEW

[논문 리뷰] Image Captioning and Visual Question Answering Based on Attributes and External Knowledge

Qi Wu, Chunhua Shen|arXiv (Cornell University)|2016. 03. 09.

Multimodal Machine Learning Applications참고 문헌 14인용 수 18

한 줄 요약

이 논문은 대규모 지식 기반에서 학습된 시각적 속성과 외부 지식을 통합하는 새로운 CNN-RNN 프레임워크를 제안하여 이미지 캡션 생성과 시각적 질의 응답(VQA) 성능을 향상시킨다. 예측된 속성을 통해 고수준 의미적 개념을 모델링하고, 이를 LSTM을 통해 지식 기반 쿼리와 융합함으로써, 여러 벤치마크 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, VQA 평가 서버에서 전체 정확도 59.50%를 기록하였다.

ABSTRACT

Much recent progress in Vision-to-Language problems has been achieved through a combination of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs). This approach does not explicitly represent high-level semantic concepts, but rather seeks to progress directly from image features to text. In this paper we first propose a method of incorporating high-level concepts into the successful CNN-RNN approach, and show that it achieves a significant improvement on the state-of-the-art in both image captioning and visual question answering. We further show that the same mechanism can be used to incorporate external knowledge, which is critically important for answering high level visual questions. Specifically, we design a visual question answering model that combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-based questions. It particularly allows questions to be asked about the contents of an image, even when the image itself does not contain a complete answer. Our final model achieves the best reported results on both image captioning and visual question answering on several benchmark datasets.

연구 동기 및 목표

CNN-RNN 파이프라인에 고수준 시각적 속성의 명시적 표현을 도입하여 시각-언어(V2L) 성능을 향상시키는 것.
직접적인 이미지 특징에서 텍스트로의 매핑 방식의 한계를 극복하기 위해 인간에게 의미 있는 의미적 개념을 통합하는 것.
예를 들어 '왜' 질문과 같은 복잡하고 개방형 질문에 대해 외부 지식이 필요한 VQA 시스템이 정답을 도출할 수 있도록 하는 것.
다중 모odal 추론을 위해 이미지 콘텐츠, 예측된 속성, 지식 기반 정보를 융합하는 일반화 가능한 방법을 개발하는 것.
통합된, 훈련 가능한 아키텍처를 통해 이미지 캡션 생성과 VQA 벤치마크에서 최신 기술 수준의 성능을 달성하는 것.

제안 방법

인간이 이해할 수 있는 의미적 속성 집합으로 이미지를 분류하는 CNN 기반의 속성 예측 모델을 훈련하여, 각 속성에 대한 가능성 벡터를 생성한다.
예측된 속성 가능성 값은 이미지 캡션 생성을 위한 LSTM 디코더의 입력으로 사용되며, 직접적인 CNN 특징 입력을 대체한다.
VQA 작업에서는 이미지 캡션, 예측된 속성, 그리고 RDF 기반 지식 기반(DBpedia 등)에서의 외부 지식을 SPARQL 쿼리를 통해 융합한다.
지식 선택 메커니즘은 이미지 콘텐츠와 질문 의미를 바탕으로 관련 사실을 검색하여 외부 지식의 관련성 향상.
최종 모델은 이미지 특징, 속성, 캡션, 선택된 지식을 동시에 인코딩하는 A+C+S-K-LSTM 아키텍처를 사용한다.
지식 기반 쿼리는 상위-k 검출된 속성과 질문 내용을 기반으로 동적으로 생성되어, 맥락 인식 기반의 외부 사실 검색을 가능하게 한다.

실험 결과

연구 질문

RQ1고수준 시각적 속성의 명시적 모델링이 직접적인 CNN-RNN 특징 매핑 방식을 초월하여 이미지 캡션 생성 성능 향상에 기여하는가?
RQ2대규모 지식 기반에서 유래한 외부 지식이 공통 지식이나 세계 지식이 필요한 질문에 대해 VQA 시스템의 성능을 크게 향상시키는가?
RQ3통합된 신경망 아키텍처가 다양한 개방형 시각적 질문에 대해 시각적 속성, 이미지 캡션, 외부 지식을 효과적으로 통합하여 답변을 도출할 수 있는가?
RQ4이미지 콘텐츠와 지식 기반 정보의 융합이 '왜'나 '어떻게' 질문과 같은 시나리오 추론 오류를 어느 정도 감소시키는가?
RQ5속성과 외부 지식을 통합하는 훈련 가능한 종단 간 시스템이 기존 최신 기술 수준의 모델보다 표준 VQA 및 캡션 벤치마크에서 뛰어난 성능을 낼 수 있는가?

주요 결과

제안된 속성 기반 캡션 생성 모델은 여러 이미지 캡션 데이터셋에서 최신 기술 수준의 성능을 달성하며, 기존 CNN-RNN 기반 모델들을 능가한다.
DBpedia에서의 SPARQL 쿼리를 통한 외부 지식 통합은 특히 공통 지식이나 맥락 추론이 필요한 질문에서 VQA 성능을 크게 향상시킨다.
VQA 평가 서버에서 최종 모델은 전체 정확도 81.10%를 기록하여, 제출 당시까지 발표된 모든 이전 결과를 초월하였다.
복잡한 질문, 예를 들어 '왜 그의 손이 뻗어 있는가?'와 같은 질문에서 VggNet-LSTM 기반 모델은 잘못된 예측 'play'를 내놓는 데 반해, 본 모델은 정확한 예측을 내놓는다.
Yes/No, 숫자, 기타 답변 유형을 포함한 다양한 질문 유형에서 뛰어난 내성성과 성능 향상을 보이며, 특히 'Yes/No' 및 '기타' 답변 유형에서 두드러진 성과를 기록한다.
이 방법은 일반화 가능성이 높으며, 현재의 지식 기반에서 완전하지 않은 경우에도 잘 작동하여, 보다 포괄적인 지식 소스가 제공될 경우 잠재력이 매우 높다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.