QUICK REVIEW

[논문 리뷰] Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang, Qi Wu|arXiv (Cornell University)|2017. 12. 06.

Multimodal Machine Learning Applications참고 문헌 28인용 수 25

한 줄 요약

이 논문은 고수준의 의미적 개념(예: 객체, 성질, 동작)과 그 올바른 의미적 순서를 함께 학습하여 이미지 표현을 향상시키는 의미적 강화된 이미지 및 문장 매칭 모델을 제안한다. 다중 영역 다중 레이블 CNN를 활용한 개념 검출과 문맥 게이팅 문장 생성 기법을 통해 순서 학습을 수행하며, MSCOCO 및 Flickr30k 벤치마크에서 최신 기술 수준의 성능을 달성하여 각각 42.8% 및 33.1%의 top-1 이미지 검색 정확도를 기록한다.

ABSTRACT

Image and sentence matching has made great progress recently, but it remains challenging due to the large visual-semantic discrepancy. This mainly arises from that the representation of pixel-level image usually lacks of high-level semantic information as in its matched sentence. In this work, we propose a semantic-enhanced image and sentence matching model, which can improve the image representation by learning semantic concepts and then organizing them in a correct semantic order. Given an image, we first use a multi-regional multi-label CNN to predict its semantic concepts, including objects, properties, actions, etc. Then, considering that different orders of semantic concepts lead to diverse semantic meanings, we use a context-gated sentence generation scheme for semantic order learning. It simultaneously uses the image global context containing concept relations as reference and the groundtruth semantic order in the matched sentence as supervision. After obtaining the improved image representation, we learn the sentence representation with a conventional LSTM, and then jointly perform image and sentence matching and sentence generation for model learning. Extensive experiments demonstrate the effectiveness of our learned semantic concepts and order, by achieving the state-of-the-art results on two public benchmark datasets.

연구 동기 및 목표

이미지와 문장 간의 시각-의미적 불일치 문제를 해결하기 위해 고수준 의미적 개념을 통합하여 이미지 표현을 향상시키는 것.
정확한 매칭에 매우 중요하지만 기존 방법에서 자주 간과되는 개념의 올바른 의미적 순서를 모델링하는 것.
엔드 투 엔드 최적화를 위해 이미지-문장 매칭과 문장 생성을 공동으로 학습하는 것.
영역 기반 특징 추출을 통해 전경 및 배경 개념을 모두 포착하여 미세한 수준의 매칭을 향상시키는 것.

제안 방법

다중 이미지 영역에서 의미적 개념(객체, 성질, 동작)을 예측하기 위해 다중 영역 다중 레이블 CNN를 사용하여 포괄적인 개념 검출을 가능하게 한다.
예측된 의미적 개념과 전역 이미지 컨텍스트(공간 관계)를 결합하는 게이팅 융합 모듈을 통해 의미 인식 기반의 이미지 표현을 형성한다.
정답 문장 순서를 지도로 사용하여 문맥 게이팅 문장 생성 모듈이 개념의 올바른 의미적 순서를 학습한다.
구조적 매칭 목적함수와 문장 생성 목적함수를 통해 이미지 표현과 문장 표현을 공동 최적화하여 엔드 투 엔드 학습을 실현한다.
의미적 개념과 그 순서 구조를 통합함으로써 이미지 표현을 강화하여 자연어 기술과의 정렬을 향상시킨다.

실험 결과

연구 질문

RQ1픽셀 수준의 특징을 초월하여 고수준 의미적 개념을 더 잘 포착할 수 있도록 이미지 표현을 어떻게 향상시킬 수 있는가?
RQ2의미적 순서는 이미지-문장 매칭에서 시각-의미적 불일치를 줄이는 데 어떤 역할을 하는가?
RQ3이미지-문장 매칭과 문장 생성의 공동 학습은 표현 품질을 향상시키는가?
RQ4제안된 문맥 게이팅 생성 기법은 이미지 컨텍스트와 정답 문장을 기반으로 올바른 의미적 순서를 얼마나 효과적으로 학습하는가?

주요 결과

제안된 모델은 MSCOCO에서 42.8%의 top-1 이미지 검색 정확도를 기록하여 이전 최신 기술 수준의 방법들을 능가한다.
Flickr30k 데이터셋에서는 33.1%의 top-1 검색 정확도를 달성하여 기존 접근 방식에 비해 뚜렷한 향상을 보였다.
제거 실험 결과, 의미적 개념과 순서 학습을 모두 통합할 경우 문장 검색 및 어노테이션 성능이 향상되며, 전체 모델이 제거된 변형보다 뛰어난 성능을 보였다.
MSCOCO에서의 이미지 어노테이션 정확도는 40.2%를 기록하여 기존 방법들인 VSE++(32.9%) 및 OEM(23.3%)에 비해 뚜렷한 향상을 보였다.
개념 검출에 VGGNet을 사용할 경우 ResNet보다 더 높은 성능 향상을 얻었으며, 이는 개념 검출에서의 특징 품질이 최종 성능에 매우 큰 영향을 미친다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.