QUICK REVIEW

[논문 리뷰] Finding beans in burgers: Deep semantic-visual embedding with localization

Martin Engilberge, Louis Chevallier|arXiv (Cornell University)|2018. 04. 05.

Multimodal Machine Learning Applications참고 문헌 47인용 수 88

한 줄 요약

요지는 두 경로의 의미-시각 임베딩을 갖춘 완전 합성 컨볼루션 시각 경로와 스크래치 학습 텍스트 경로를 가진 논문으로, 교차 모달 검색에서 최첨단 성능을 달성하고 이미지 내 약한 방식의 구문 로컬라이제이션을 제공합니다.

ABSTRACT

Several works have proposed to learn a two-path neural network that maps images and texts, respectively, to a same shared Euclidean space where geometry captures useful semantic relationships. Such a multi-modal embedding can be trained and used for various tasks, notably image captioning. In the present work, we introduce a new architecture of this type, with a visual path that leverages recent space-aware pooling mechanisms. Combined with a textual path which is jointly trained from scratch, our semantic-visual embedding offers a versatile model. Once trained under the supervision of captioned images, it yields new state-of-the-art performance on cross-modal retrieval. It also allows the localization of new concepts from the embedding space into any input image, delivering state-of-the-art result on the visual grounding of phrases.

연구 동기 및 목표

이미지와 텍스트의 의미 관계를 포착하는 공동 임베딩을 학습하여 공유 공간에서의 공동 표현을 얻는 것을 목표로 한다.
지역 제안 없이 특징 추출을 개선하기 위해 시각 경로에서 공간 인식적 선택적 풀링을 도입한다.
단어 표현을 위한 사전 학습된 word2vec를 활용하면서 텍스트 인코더를 처음부터 학습한다.
명시적 영역 수준의 감독 없이 임베딩 공간에서 추출된 히트맵으로 이미지 내 개념의 위치 지정을 가능하게 한다.

제안 방법

완전 합성 컨볼루션 시각 경로(ResNet-152 베이스, 1x1 적응, 선택적 공간 풀링, 최종 투영)를 사용하여 x를 R^d로 생성하는 이중 경로 네트워크를 사용한다.
텍스트 경로는 word2vec 입력을 따른 후 단순한 SRU 인코더를 통해 v를 R^d로 생성하는 문장을 인코딩한다.
배치 기반의 하드 네거티브 마이닝을 갖는 대조적 트리플렛 랭킹 손실로 이미지 및 자막 임베딩을 정렬하여 학습한다.
히트맵 형태의 히트맵을 형성하기 위해 학습된 1x1 투영을 통해 임베딩 벡터를 일련의 특징 맵에 매핑하고, 상위-k 텍스트 임베딩 항목으로 가중치를 준 맵을 결합하여 열화된 열지도를 구성한다.
weakly supervised localization에서 영감을 받은 선택적 공간 풀링(부정 증거)을 시각 경로에 도입하여 공간 정보를 보존한다.
두 단계로 학습한다: ImageNet 초기화로 시각 투영을 선훈련한 뒤 MS-COCO에서 Adam 옵티마이저로 엔드-투-엔드 미세 조정.

실험 결과

연구 질문

RQ1영역 제안 없이 공간 인식 풀이 적용된 공동으로 학습된 이미지-텍스트 임베딩이 최첨단 교차 모달 검색을 달성할 수 있는가?
RQ2임베딩 공간이 보이지 않는 개념을 포함한 임의의 텍스트 개념의 위치 지정을 가능하게 하는가, 약한 학습 기반의 로컬라이제이션을 통해?
RQ3하드 네거티브 마이닝이 임베딩 성능에 미치는 영향은 무작위 네거티브와 비교하여 어떤 차이가 있는가?
RQ4최종 풀링을 전역 평균 풀링으로 대체했을 때 검색 및 로컬라이제이션 성능에 미치는 효과는 어떠한가?
RQ5MS-COCO에서 학습된 모델이 Flickr-30K 및 Visual Genome와 같은 다른 데이터셋으로의 그라운딩 작업 전이 성능은 얼마나 되는가?

주요 결과

MS-COCO에서 최고 수준의 교차 모달 검색 성능을 달성하며 R@1, R@5, R@10 측정치에서 이전 방법들을 능가한다.
MS-COCO 기반 평가에서 33.8%의 포인팅 게임 정확도로 강력한 구문 로킹 기능을 입증하여 이전 방법을 능가한다.
로컬라이제이션 히트맵은 임베딩 공간에서 유도되어 이미지 내 개념의 위치를 로컬라이즈할 수 있으며 unseen 개념도 포함한다.
하드 네거티브 마이닝은 무작위 네거티브만 사용할 때보다 검색 성능을 상당히 향상시킨다.
모델은 Flickr-30K로의 전이와 질적 제로샷 로컬라이제이션 능력을 보이며, 추가 미세 조정을 위한 여지가 있다.
선택적 풀링을 Global Average Pooling으로 대체하면 태스크 전반에 걸쳐 성능이 저하된다(비교적 완만한 감소).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.