QUICK REVIEW

[논문 리뷰] Stacked Cross Attention for Image-Text Matching

Kuang-Huei Lee, Xi Chen|arXiv (Cornell University)|2018. 03. 21.

Multimodal Machine Learning Applications참고 문헌 43인용 수 48

한 줄 요약

SC A N은 SCAN을 도입하여 이미지 영역과 문장 단어를 정렬하고, Dual attention과 LogSumExp 풀링으로 잠재 영역-단어 정렬을 계산하여 Flickr30K와 MS-COCO에서 최첨단 이미지-텍스트 매칭을 달성한다.

ABSTRACT

In this paper, we study the problem of image-text matching. Inferring the latent semantic alignment between objects or other salient stuff (e.g. snow, sky, lawn) and the corresponding words in sentences allows to capture fine-grained interplay between vision and language, and makes image-text matching more interpretable. Prior work either simply aggregates the similarity of all possible pairs of regions and words without attending differentially to more and less important words or regions, or uses a multi-step attentional process to capture limited number of semantic alignments which is less interpretable. In this paper, we present Stacked Cross Attention to discover the full latent alignments using both image regions and words in a sentence as context and infer image-text similarity. Our approach achieves the state-of-the-art results on the MS-COCO and Flickr30K datasets. On Flickr30K, our approach outperforms the current best methods by 22.1% relatively in text retrieval from image query, and 18.2% relatively in image retrieval with text query (based on Recall@1). On MS-COCO, our approach improves sentence retrieval by 17.8% relatively and image retrieval by 16.6% relatively (based on Recall@1 using the 5K test set). Code has been made available at: https://github.com/kuanghuei/SCAN.

연구 동기 및 목표

해석 가능한 교차 모달 검색을 위한 잠재 영역-단어 정렬을 추론해 미세한 이미지-텍스트 매칭을 유도한다.
이미지와 문장 양쪽의 맥락을 이용해 영역과 단어를 가중치화하는 두 단계의 어텐션 기제를 개발한다.
모든 잠재 정렬을 탐색하는 것이 고정 단계의 어텐션 방법보다 검색 성능을 향상시키는지 보여준다.

제안 방법

Faster R-CNN을 통해 바텀업 탐지 영역과 2048-차원 특성으로 이미지를 표현한다.
공유된 1024-차원 공간에서 양방향 GRU 기반 단어 임베딩으로 문장을 표현한다.
이미지-텍스트(이미지의 각 영역에 대해 단어에 주목한 뒤 영역을 가중치화)와 텍스트-이미지(단어에 대해 이미지 영역에 주목한 뒤 단어를 가중치화) 두 가지 보완적 형식으로 Stacked Cross Attention을 제안한다.
영역/단어 특성 간의 코사인 유사도를 사용하고 최종 이미지-문장 유사도 계산을 위해 LogSumExp 풀링을 적용한다.
미니 배치에서 가장 강한 음성을 상대로 마진을 최대화하는 hard-negative triplet 손실로 학습한다.
Sum-Max 베이스라인, AVG/LSE 풀링, 양방향 GRU의 영향 등을 비교하는 어블레이션을 제공한다.

실험 결과

연구 질문

RQ1이미지 영역과 문장 단어 간의 잠재적이고 맥락 인식 가능한 정렬을 공동 임베딩 공간에서 발견해 이미지-텍스트 검색을 개선할 수 있는가?
RQ2듀얼 어텐션 형식(이미지 주도 단어 주목 및 단어 주도 이미지 주목)이 크로스 모달 매칭에 상보적인 이점을 제공하는가?
RQ3스택드 크로스 어텐션을 통해 모든 잠재 정렬을 탐색하는 것이 고정 단계나 원샷 어텐션 방법보다 성능이 우수한가?

주요 결과

Method	R@1 (Sentence Retrieval)	R@5	R@10	R@1 (Image Retrieval)	R@5	R@10
SCAN t-i LSE (λ1=9, λ2=6)	61.1	85.4	91.5	43.3	71.9	80.9
SCAN t-i AVG (λ1=9)	61.8	87.5	93.7	45.8	74.4	83.0
SCAN i-t LSE (λ1=4, λ2=5)	67.7	88.9	94.0	44.0	74.2	82.6
SCAN i-t AVG (λ1=4)	67.9	89.0	94.4	43.9	74.2	82.8
SCAN t-i AVG + i-t LSE	67.4	90.3	95.8	48.6	77.7	85.2

SCAN은 Flickr30K와 MS-COCO에서 여러 지표에 걸쳐 최첨단 회수율을 달성한다.
Flickr30K에서 SCAN i-t AVG는 문장 검색에 대해 R@1이 67.9이고 이미지 검색에 대해 R@1이 74.2이며, SCAN t-i AVG는 문장 검색에 대해 R@1이 61.8이고 이미지 검색에 대해 R@1이 74.4이다(표 1의 예시).
SCANC variants를 앙상블하면 예를 들어 t-i AVG + i-t LSE가 Flickr30K 이미지 검색에서 R@1 = 48.6이라는 최고의 결과를 낳는다.
MS-COCO(5K 테스트)에서 SCAN t-i AVG + i-t LSE는 문장 검색의 R@1를 SCO 대비 17.8%, 이미지 검색의 R@1를 16.6%(상대)
Ablation은 하드 제약 음성과 Stacked Cross Attention 설계가 성능 향상에 결정적으로 기여함을 보여준다.
시각화는 “boy”, “holding”, “tennis racket”와 같은 특정 단어가 대응하는 이미지 영역과 해석 가능한 어텐션 맵으로 정렬됨을 확인시켜 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.