QUICK REVIEW

[논문 리뷰] Learning a Text-Video Embedding from Incomplete and Heterogeneous Data

Antoine Miech, Ivan Laptev|arXiv (Cornell University)|2018. 04. 07.

Multimodal Machine Learning Applications참고 문헌 59인용 수 176

한 줄 요약

Mixture-of-Embedding-Experts (MEE)를 제안하여 이질적이고 부분적으로 이용 가능한 데이터에서 joint text-video 임베딩을 학습하고, 이미지와 비디오에서 모달리티가 누락된 학습을 가능하게 하며 여러 벤치마크에서 검색 성능을 향상시킵니다.

ABSTRACT

Joint understanding of video and language is an active research area with many applications. Prior work in this domain typically relies on learning text-video embeddings. One difficulty with this approach, however, is the lack of large-scale annotated video-caption datasets for training. To address this issue, we aim at learning text-video embeddings from heterogeneous data sources. To this end, we propose a Mixture-of-Embedding-Experts (MEE) model with ability to handle missing input modalities during training. As a result, our framework can learn improved text-video embeddings simultaneously from image and video datasets. We also show the generalization of MEE to other input modalities such as face descriptors. We evaluate our method on the task of video retrieval and report results for the MPII Movie Description and MSR-VTT datasets. The proposed MEE model demonstrates significant improvements and outperforms previously reported methods on both text-to-video and video-to-text retrieval tasks. Code is available at: https://github.com/antoine77340/Mixture-of-Embedding-Experts

연구 동기 및 목표

대규모 라벨이 달린 비디오 자막 데이터가 부족할 때 텍스트-비디오 임베딩 학습 동기를 부여한다.
누락 모달리티를 가진 이질적 소스(이미지, 비디오, 얼굴, 오디오)로부터 학습을 가능하게 한다.
입력 텍스트에 조건화된 모달리티별 전문가를 가중하는 엔드-투-엔드 MEE 모델을 제안한다.
이미지-자막 데이터와 얼굴 서술자를 포함한 데이터 확장을 통해 검색 성능을 개선한다.
텍스트-비디오 및 비디오-텍스트 검색 벤치마크에서 최첨단 결과를 보여준다.

제안 방법

각 묘사 타입(외관, 모션, 오디오, 얼굴)에 대해 개별 임베딩(전문가)을 학습하는 Mixture-of-Embedding-Experts (MEE)를 도입한다.
각 묘사 스트림을 시간 모듈(NetVLAD 또는 최대 풀링)로 집계하고 게이트 임베딩 모듈과 투영, 컨텍스트 게이팅, L2 정규화를 사용해 임베딩한다.
단어 임베딩에 NetVLAD 집계를 사용하여 텍스트 임베딩을 계산하고 전문가별 텍스트 표현을 집계한다.
텍스트로 조건화된 가중치 w_i(X) = exp(h(X)^T a_i) / sum_j exp(h(X)^T a_j)를 사용해 전문가 임베딩에 가중치를 부여하고 최종 유사도 s(X,Y)을 형성한다.
학습 중 일부 스트림이 부재할 때 가용한 전문가 가중치를 재정규화함으로써 누락 모달리티를 처리한다.
텍스트-비디오 및 비디오-텍스트 검색 작업을 최적화하기 위해 양방향 최대-마진 랭킹 손실로 학습한다.

실험 결과

연구 질문

RQ1이질적이고 부분적으로 이용 가능한 데이터 소스(이미지, 비디오, 얼굴, 오디오)에서 공동 텍스트-비디오 임베딩을 학습할 수 있는가?
RQ2일부 스트림이 누락될 때 모달리티별 전문가와 텍스트 조건화 가중치가 검색을 향상시키는가?
RQ3COCO의 이미지 자막 데이터를 포함하고 얼굴 서술자를 포함하는 데이터 확장이 텍스트-비디오 및 비디오-텍스트 검색을 향상시키는가?
RQ4제안된 모델은 표준 벤치마크(MPII/MSR-VTT)에서 이전의 최첨단과 비교하여 어떤 성능을 보이는가?

주요 결과

평가 작업	방법	R@1	R@5	R@10	MR	MC 정확도
Text-to-Video retrieval	Random baseline	0.1	0.5	1.0	500	20.0
Text-to-Video retrieval	C+LSTM+SA+FC7 [57]	4.2	13.0	19.5	90	58.1
Text-to-Video retrieval	SNUVL [52]	3.6	14.7	23.9	50	65.7
Text-to-Video retrieval	CT-SAN [2]	5.1	16.3	25.2	46	67.0
Text-to-Video retrieval	Miech et al. [3]	7.3	19.2	27.1	52	69.7
Text-to-Video retrieval	CCA (FV HGLMM) [20]	7.5	21.7	31.0	33	72.8
Text-to-Video retrieval	JSFusion [58]	9.1	21.2	34.1	36	73.5
Text-to-Video retrieval	MEE + COCO + Face (Ours)	10.1	25.6	34.6	27	73.9

MEE는 텍스트-비디오 및 비디오-텍스트 검색 벤치마크에서 이전 방법들보다 우수하다(MPII/LSMDC 및 MSR-VTT).
COCO 이미지 자막으로 학습을 보강하면 COCO 이미지와 MPII 비디오 모두의 성능이 향상되고, COCO를 얼굴 서술자와 결합하면 추가 이득이 생긴다.
얼굴 서술자를 포함하면 사람들이 있을 때 추가 개선을 제공하고, MEE는 학습 및 추론 시 누락 스트림을 우아하게 처리할 수 있다.
LSMDC 테스트 세트에서 COCO 및 Face를 포함한 MEE가 나열된 방법들 중 가장 좋은 결과를 달성한다(텍스트->비디오: R@1=10.1, R@5=25.6, R@10=34.6; 비디오->텍스트: MC=73.9).
모델은 images를 motion/sound 없이 비디오처럼 다루는 것을 지원하여 이미지-자막 데이터로부터의 데이터 확장을 원활하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.