QUICK REVIEW

[논문 리뷰] Dual-Path Convolutional Image-Text Embedding.

Zhedong Zheng, Liang Zheng|arXiv (Cornell University)|2017. 11. 15.

Multimodal Machine Learning Applications참고 문헌 36인용 수 47

한 줄 요약

이 논문은 레이어별로 분리된 병렬 구조를 가진 컨볼루션 네트워크를 제안하여 이미지-텍스트 임베딩을 동시에 학습한다. ReLU와 배치 정규화를 사용하는 엔드 투 엔드 학습 가능한 CNN을 활용해 시각적 및 텍스트적 특징을 동시에 최적화한다. 대용량 마진 최적화를 적용한 인스턴스 손실을 도입하여 언어 기반 인물 검색에서 최신 기술 수준(SOTA) 성능을 달성하고, Flickr30k 및 MSCOCO에서도 경쟁력 있는 결과를 얻는다.

ABSTRACT

This paper considers the task of matching images and sentences. The challenge consists in discriminatively embedding the two modalities onto a shared visual-textual space. Existing work in this field largely uses Recurrent Neural Networks (RNN) for text feature learning and employs off-the-shelf Convolutional Neural Networks (CNN) for image feature extraction. Our system, in comparison, differs in two key aspects. Firstly, we build a convolutional network amenable for fine-tuning the visual and textual representations, where the entire network only contains four components, i.e., convolution layer, pooling layer, rectified linear unit function (ReLU), and batch normalisation. End-to-end learning allows the system to directly learn from the data and fully utilise the supervisions. Secondly, we propose instance loss according to viewing each multimodal data pair as a class. This works with a large margin objective to learn the inter-modal correspondence between images and their textual descriptions. Experiments on two generic retrieval datasets (Flickr30k and MSCOCO) demonstrate that our method yields competitive accuracy compared to state-of-the-art methods. Moreover, in language person retrieval, we improve the state of the art by a large margin. Code is available at this https URL com/layumi/Image-Text-Embedding

연구 동기 및 목표

이미지-문장 매칭을 위한 공통된 공간에서 분류 가능한 시각-텍스트 임베딩을 해결하기 위해.
기존 방법에서 RNN 기반 텍스트 인코더와 사전 제작된 CNN의 한계를 극복하기 위해.
경량적이고 완전히 컨볼루션 기반의 아키텍처를 사용해 시각적 및 텍스트적 표현을 엔드 투 엔드로 학습할 수 있도록 하기 위해.
대용량 마진 목표를 적용한 새로운 인스턴스 손실을 통해 이중 모달 간의 대응 관계 학습을 향상시키기 위해.

제안 방법

모델은 이미지 및 텍스트 스트림 모두에 대해 공통된 구성 요소를 갖춘 이중 경로 아키텍처를 사용한다: 컨볼루션 레이어, ReLU 활성화 함수, 배치 정규화, 풀링 레이어.
전체 네트워크는 엔드 투 엔드로 학습 가능하여 원시 데이터에서 직접 완전한 감독 신호를 사용해 최적화할 수 있다.
각 이미지-텍스트 쌍을 고유한 클래스로 간주하여 분류 능력을 향상시키기 위해 인스턴스 손실을 도입한다.
손실는 대용량 마진 목표와 결합되어 이중 모달 간의 정렬을 강화하고 일반화 성능을 향상시킨다.
감독 대비 학습 원리를 기반으로 백프로파게이션을 사용해 엔드 투 엔드로 네트워크를 학습한다.

실험 결과

연구 질문

RQ1RNN을 사용하지 않고도 완전히 컨볼루션 기반의 네트워크가 공동의 시각-텍스트 표현을 효과적으로 학습할 수 있는가?
RQ2기본 대비 학습 손실과 비교해 대용량 마진 최적화를 적용한 인스턴스 손실이 이중 모달 매칭 성능을 어떻게 향상시키는가?
RQ3사전 학습된 RNN과 사전 제작된 CNN을 사용하는 모델과 비교해 경량 CNN 아키텍처를 엔드 투 엔드로 학습하는 것이 더 우수한 성능을 내는가?
RQ4이 방법은 영차례 검색 및 언어 기반 인물 검색을 포함한 다양한 검색 작업에 얼마나 잘 일반화되는가?

주요 결과

Flickr30k 및 MSCOCO 검색 벤치마크에서 경쟁력 있는 성능을 기록하며 최신 기술 수준(SOTA) 결과를 달성한다.
언어 기반 인물 검색에서 최신 기술 수준(SOTA)을 크게 향상시켜 영차례 설정에서도 강력한 일반화 능력을 입증한다.
엔드 투 엔드 학습 방식은 사전 학습된 구성 요소를 사용하는 모델보다 더 나은 특징 정렬을 가능하게 한다.
대용량 마진 목표를 적용한 인스턴스 손실은 특히 미세한 매칭 작업에서 분류 능력을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.