QUICK REVIEW

[논문 리뷰] From Images to Sentences through Scene Description Graphs using Commonsense Reasoning and Knowledge

Somak Aditya, Yezhou Yang|arXiv (Cornell University)|2015. 11. 10.

Multimodal Machine Learning Applications참고 문헌 43인용 수 48

한 줄 요약

이 논문은 공공지식 추론과 자동으로 구축된 지식 기반을 사용하여 영상에서 시각적 묘사를 생성하는 새로운 프레임워크를 제안한다. 시나리오 묘사 그래프(SDGs)를 구성함으로써, 기존의 최첨단 기술보다 더 관련성 있고 철저한 문장 생성을 가능하게 하며, Flickr8k, Flickr30k, MS-COCO에서 경쟁적인 이미지-문장 정렬 성능을 달성한다.

ABSTRACT

In this paper we propose the construction of linguistic descriptions of images. This is achieved through the extraction of scene description graphs (SDGs) from visual scenes using an automatically constructed knowledge base. SDGs are constructed using both vision and reasoning. Specifically, commonsense reasoning is applied on (a) detections obtained from existing perception methods on given images, (b) a "commonsense" knowledge base constructed using natural language processing of image annotations and (c) lexical ontological knowledge from resources such as WordNet. Amazon Mechanical Turk(AMT)-based evaluations on Flickr8k, Flickr30k and MS-COCO datasets show that in most cases, sentences auto-constructed from SDGs obtained by our method give a more relevant and thorough description of an image than a recent state-of-the-art image caption based approach. Our Image-Sentence Alignment Evaluation results are also comparable to that of the recent state-of-the art approaches.

연구 동기 및 목표

엔드 투 엔드 영상 요약 모델이 해석 가능성과 추론 능력을 갖추지 못한 한계를 해결하기 위해.
중간 단계의 의미적 표현인 시나리오 묘사 그래프(SDGs)를 도입하여 시각과 자연어 이해를 연결하기 위해.
영상 애너테이션과 어휘 온톨로지인 WordNet과 같은 자료에서 공공지식을 채굴함으로써 영상 요약을 향상시키기 위해.
시각적 요약에서 인과적 추론과 추적 가능한 실패 분석을 가능하게 하기 위해 인식과 언어 생성을 분리하기 위해.
구조화되고 지식 기반의 시나리오 표현을 통해 이미지-문장 정렬과 의미 이해를 향상시키기 위해.

제안 방법

영상 애너테이션과 WordNet에서 지식 기반을 구축하여 물체, 사건 및 그 상호작용에 대한 공공지식을 인코딩하기 위해.
딥 러닝 기반의 시각 시스템을 사용하여 확률적 신뢰도 점수를 제공하는 고신뢰도의 물체 및 시나리오 검출을 추출하기 위해.
검출된 물체와 추상적 시각 개념 간의 종속성을 모델링하기 위해 베이지안 네트워크를 구축하여 가능한 사건과 역할을 추론하기 위해.
유추된 의미 역할과 공공지식을 사용하여 실체, 사건 및 그 관계를 표현하는 시나리오 묘사 그래프(SDGs)를 생성하기 위해.
질의 SDG와 이미지 SDG 간의 유사도를 비교하기 위해 WordNet 유사도와 재결합 계수 기반의 그래프 유사도 측정법을 적용하기 위해.
그래프의 노드와 엣지를 언어 문법과 의미에 매핑하여 SDG 구조를 활용해 자연어 문장을 생성하기 위해.

실험 결과

연구 질문

RQ1중간 단계의 의미적 표현인 시나리오 묘사 그래프(SDG)가 영상 요약의 관련성과 철저함을 향상시킬 수 있는가?
RQ2텍스트에서 유도한 공공지식이 시각적 시나리오 이해와 요약 생성에 얼마나 기여하는가?
RQ3SDG 기반 접근법은 엔드 투 엔드 딥 러닝 모델 대비 이미지-문장 정렬 및 요약 품질에서 어떻게 비교되는가?
RQ4블랙박스 모델과 달리, SDG는 논리적 추론과 실패 분석을 지원할 수 있는가?
RQ5시각적 검출과 지식 기반을 통합하면 시나리오 내의 사건과 실체 검출 정확도가 향상되는가?

주요 결과

AMT 평가 결과, SDG에서 생성된 문장은 최근 최첨단 영상 요약 모델보다 유의미하게 더 관련성 있고 철저한 것으로 평가되었다.
SDG 기반 방법은 Flickr8k에서 18.1의 recall@1, Flickr30k에서 26.5, MS-COCO(1k)에서 19.3의 성능을 기록하여 대부분의 경우 BRNN 기준선을 초월했다.
이 방법은 Flickr8k에서 중앙순위(Med r) 10.5, Flickr30k에서 6.0을 기록하여 뛰어난 이미지 검색 성능를 보였다.
골드 표준 평가에서 SDG 기반 방법은 최첨단 시스템과 유사한 정확도로 사건과 실체를 검출하였다.
SDG 표현은 구조화된 추론과 해석 가능성 향상을 가능하게 하여 요약 생성 과정에서 추적 가능한 실패 분석을 가능하게 하였다.
그래프 기반의 유사도 측정법은 이미지와 문장 묘사 간의 의미적 정렬을 효과적으로 포착하여 통합된 이미지-텍스트 검색을 지원하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.