Skip to main content
QUICK REVIEW

[논문 리뷰] Finding beans in burgers: Deep semantic-visual embedding with localization

Martin Engilberge, Louis Chevallier|arXiv (Cornell University)|2018. 04. 05.
Multimodal Machine Learning Applications참고 문헌 47인용 수 88
한 줄 요약

요지는 두 경로의 의미-시각 임베딩을 갖춘 완전 합성 컨볼루션 시각 경로와 스크래치 학습 텍스트 경로를 가진 논문으로, 교차 모달 검색에서 최첨단 성능을 달성하고 이미지 내 약한 방식의 구문 로컬라이제이션을 제공합니다.

ABSTRACT

Several works have proposed to learn a two-path neural network that maps images and texts, respectively, to a same shared Euclidean space where geometry captures useful semantic relationships. Such a multi-modal embedding can be trained and used for various tasks, notably image captioning. In the present work, we introduce a new architecture of this type, with a visual path that leverages recent space-aware pooling mechanisms. Combined with a textual path which is jointly trained from scratch, our semantic-visual embedding offers a versatile model. Once trained under the supervision of captioned images, it yields new state-of-the-art performance on cross-modal retrieval. It also allows the localization of new concepts from the embedding space into any input image, delivering state-of-the-art result on the visual grounding of phrases.

연구 동기 및 목표

  • 이미지와 텍스트의 의미 관계를 포착하는 공동 임베딩을 학습하여 공유 공간에서의 공동 표현을 얻는 것을 목표로 한다.
  • 지역 제안 없이 특징 추출을 개선하기 위해 시각 경로에서 공간 인식적 선택적 풀링을 도입한다.
  • 단어 표현을 위한 사전 학습된 word2vec를 활용하면서 텍스트 인코더를 처음부터 학습한다.
  • 명시적 영역 수준의 감독 없이 임베딩 공간에서 추출된 히트맵으로 이미지 내 개념의 위치 지정을 가능하게 한다.

제안 방법

  • 완전 합성 컨볼루션 시각 경로(ResNet-152 베이스, 1x1 적응, 선택적 공간 풀링, 최종 투영)를 사용하여 x를 R^d로 생성하는 이중 경로 네트워크를 사용한다.
  • 텍스트 경로는 word2vec 입력을 따른 후 단순한 SRU 인코더를 통해 v를 R^d로 생성하는 문장을 인코딩한다.
  • 배치 기반의 하드 네거티브 마이닝을 갖는 대조적 트리플렛 랭킹 손실로 이미지 및 자막 임베딩을 정렬하여 학습한다.
  • 히트맵 형태의 히트맵을 형성하기 위해 학습된 1x1 투영을 통해 임베딩 벡터를 일련의 특징 맵에 매핑하고, 상위-k 텍스트 임베딩 항목으로 가중치를 준 맵을 결합하여 열화된 열지도를 구성한다.
  • weakly supervised localization에서 영감을 받은 선택적 공간 풀링(부정 증거)을 시각 경로에 도입하여 공간 정보를 보존한다.
  • 두 단계로 학습한다: ImageNet 초기화로 시각 투영을 선훈련한 뒤 MS-COCO에서 Adam 옵티마이저로 엔드-투-엔드 미세 조정.

실험 결과

연구 질문

  • RQ1영역 제안 없이 공간 인식 풀이 적용된 공동으로 학습된 이미지-텍스트 임베딩이 최첨단 교차 모달 검색을 달성할 수 있는가?
  • RQ2임베딩 공간이 보이지 않는 개념을 포함한 임의의 텍스트 개념의 위치 지정을 가능하게 하는가, 약한 학습 기반의 로컬라이제이션을 통해?
  • RQ3하드 네거티브 마이닝이 임베딩 성능에 미치는 영향은 무작위 네거티브와 비교하여 어떤 차이가 있는가?
  • RQ4최종 풀링을 전역 평균 풀링으로 대체했을 때 검색 및 로컬라이제이션 성능에 미치는 효과는 어떠한가?
  • RQ5MS-COCO에서 학습된 모델이 Flickr-30K 및 Visual Genome와 같은 다른 데이터셋으로의 그라운딩 작업 전이 성능은 얼마나 되는가?

주요 결과

  • MS-COCO에서 최고 수준의 교차 모달 검색 성능을 달성하며 R@1, R@5, R@10 측정치에서 이전 방법들을 능가한다.
  • MS-COCO 기반 평가에서 33.8%의 포인팅 게임 정확도로 강력한 구문 로킹 기능을 입증하여 이전 방법을 능가한다.
  • 로컬라이제이션 히트맵은 임베딩 공간에서 유도되어 이미지 내 개념의 위치를 로컬라이즈할 수 있으며 unseen 개념도 포함한다.
  • 하드 네거티브 마이닝은 무작위 네거티브만 사용할 때보다 검색 성능을 상당히 향상시킨다.
  • 모델은 Flickr-30K로의 전이와 질적 제로샷 로컬라이제이션 능력을 보이며, 추가 미세 조정을 위한 여지가 있다.
  • 선택적 풀링을 Global Average Pooling으로 대체하면 태스크 전반에 걸쳐 성능이 저하된다(비교적 완만한 감소).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.