QUICK REVIEW

[논문 리뷰] Learning the Best Pooling Strategy for Visual Semantic Embedding

Jiacheng Chen, Hexiang Hu|arXiv (Cornell University)|2020. 11. 09.

Multimodal Machine Learning Applications참고 문헌 53인용 수 23

한 줄 요약

이 논문은 시각적 및 텍스처적 특징에 대해 시각적 의미 임bedding(VSE) 모델에서 최적의 풀링 전략을 자동으로 발견하는 학습 가능한 풀링 모듈인 일반화 풀링 연산자(GPO)를 제안한다. 위치 인코딩에 조건부인 경량 시퀀스 모델을 통해 풀링 계수를 학습함으로써, GPO는 복잡한 집계기법보다도 뛰어난 성능을 보이며 최소한의 계산 부하로 이미지 및 영상-텍스트 검색 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Visual Semantic Embedding (VSE) is a dominant approach for vision-language retrieval, which aims at learning a deep embedding space such that visual data are embedded close to their semantic text labels or descriptions. Recent VSE models use complex methods to better contextualize and aggregate multi-modal features into holistic embeddings. However, we discover that surprisingly simple (but carefully selected) global pooling functions (e.g., max pooling) outperform those complex models, across different feature extractors. Despite its simplicity and effectiveness, seeking the best pooling function for different data modality and feature extractor is costly and tedious, especially when the size of features varies (e.g., text, video). Therefore, we propose a Generalized Pooling Operator (GPO), which learns to automatically adapt itself to the best pooling strategy for different features, requiring no manual tuning while staying effective and efficient. We extend the VSE model using this proposed GPO and denote it as VSE$\infty$. Without bells and whistles, VSE$\infty$ outperforms previous VSE methods significantly on image-text retrieval benchmarks across popular feature extractors. With a simple adaptation, variants of VSE$\infty$ further demonstrate its strength by achieving the new state of the art on two video-text retrieval datasets. Comprehensive experiments and visualizations confirm that GPO always discovers the best pooling strategy and can be a plug-and-play feature aggregation module for standard VSE models. Code and pre-trained models are available at https://vse-infty.github.io.

연구 동기 및 목표

VSE 모델에서 다양한 데이터 모odal리티와 특징 추출기 간에 수동으로 풀링 함수를 튜닝하는 과제를 해결하기 위해.
수동 하이퍼파라미터 검색 없이도 최적의 풀링 전략에 자동으로 적응하는 즉시 사용 가능한 특징 집계 모듈을 개발하기 위해.
복잡한 집계기법을 학습 가능한 일반화 풀링 메커니즘으로 대체함으로써 VSE 성능을 향상시키고 효율성을 유지하기 위해.
적절히 선택된 간단한 풀링 함수가 잘 선택된 경우 복잡한 집계기법을 능가할 수 있으며, 이러한 선택 과정을 자동화하기 위해.

제안 방법

정렬된 특징 벡터에 대해 최적의 풀링 계수를 생성하는 파라미터화된 풀링 레이어인 일반화 풀링 연산자(GPO)를 제안한다.
시그모이드 위치 인코딩을 사용하여 위치 인덱스를 표현함으로써, 다양한 크기의 특징에 대해 일반화할 수 있도록 한다.
각 특징 요소의 위치와 임bed딩 맥락에 기반하여 가중치를 예측하는 BiGRU 기반의 계수 생성기를 훈련한다.
비디오 및 텍스트 브랜치 양쪽에서 표준 집계기법을 대체하기 위해, VSE 프레임워크에 GPO를 통합하여 VSE∞로 구성한다.
대tr립트 랭킹 손실과 온라인 하드 네거티브 마이닝을 사용하여 대비 학습을 향상시키기 위해 모델을 최적화한다.
훈련 중에 크기 증강을 적용하여, 미리 보지 못한 특징 크기로의 일반화 성능을 향상시킨다.

실험 결과

연구 질문

RQ1간단하고 학습 가능한 풀링 연산자가 VSE 모델에서 복잡한 특징 집계기법보다 뛰어난 성능을 낼 수 있는가?
RQ2수동 튜닝 없이 다양한 데이터 모달리티와 특징 추출기의 최적 풀링 전략을 자동으로 발견할 수 있는가?
RQ3일반화 풀링 연산자가 이미지, 텍스트, 영상 입력에서의 미리 보지 못한 특징 크기에 얼마나 잘 일반화되는가?
RQ4VSE 맥락에서 매 차원 또는 데이터에 의존하는 풀링 계수를 추가하면 성능 향상이 이루어지는가?
RQ5제안된 GPO는 최소한의 적응으로 영상-텍스트 검색 작업에 효과적으로 전이될 수 있는가?

주요 결과

GPO는 체계적인 그리드 서치와의 비교를 통해 다양한 데이터 모달리티와 특징 추출기 간에 항상 최적의 풀링 전략을 발견한다.
GPO를 통합한 VSE∞는 COCO와 Flickr30K 이미지-텍스트 검색 벤치마크에서 최신 기술 수준의 성능을 달성하며, 이전의 최신 기술 수준 VSE 방법을 모두 능가한다.
MSR-VTT 및 VaTeX 영상-텍스트 검색 데이터셋에서, VSE∞의 변종들은 단순한 적응만으로도 새로운 최신 기술 수준의 결과를 달성한다.
GPO의 Cos/Sin+BiGRU 설계는 합성 패턴 생성에서 RMSE 측면에서 최고의 성능을 기록하며, Interp 및 Index+BiGRU와 같은 대안들보다 뛰어나다.
매 차원의 풀링 계수나 데이터에 의존하는 생성기를 추가해도 성능 향상이 없으며, 이는 더 단순한 설계가 충분하며 과적합에 덜 민감하다는 것을 시사한다.
결과는 잘 선택된 단순한 풀링 함수(예: 최댓값 풀링)가 복잡한 집계기법을 능가할 수 있으며, GPO가 이러한 선택을 효과적으로 자동화함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.