QUICK REVIEW

[논문 리뷰] Use What You Have: Video Retrieval Using Representations From Collaborative Experts

Yang Liu, Samuel Albanie|arXiv (Cornell University)|2019. 07. 31.

Multimodal Machine Learning Applications참고 문헌 67인용 수 206

한 줄 요약

본 논문은 Collaborative Experts (CE) 프레임워크를 제시한다. 이 프레임워크는 다수의 사전 학습된 단일 모달 비디오 전문가들(예: objects, actions, speech, OCR)을 하나의 간결한 비디오-텍스트 임베딩으로 집계하여 검색에 활용하며, 동적 협업 게이팅 메커니즘을 사용한다. 다섯 개의 benchmarks에서 평가하였고, 일반적 신호와 구체적 신호를 모두 활용함으로써 검색 성능이 향상되었음을 보인다.

ABSTRACT

The rapid growth of video on the internet has made searching for video content using natural language queries a significant challenge. Human-generated queries for video datasets `in the wild' vary a lot in terms of degree of specificity, with some queries describing specific details such as the names of famous identities, content from speech, or text available on the screen. Our goal is to condense the multi-modal, extremely high dimensional information from videos into a single, compact video representation for the task of video retrieval using free-form text queries, where the degree of specificity is open-ended. For this we exploit existing knowledge in the form of pre-trained semantic embeddings which include 'general' features such as motion, appearance, and scene features from visual content. We also explore the use of more 'specific' cues from ASR and OCR which are intermittently available for videos and find that these signals remain challenging to use effectively for retrieval. We propose a collaborative experts model to aggregate information from these different pre-trained experts and assess our approach empirically on five retrieval benchmarks: MSR-VTT, LSMDC, MSVD, DiDeMo, and ActivityNet. Code and data can be found at www.robots.ox.ac.uk/~vgg/research/collaborative-experts/. This paper contains a correction to results reported in the previous version.

연구 동기 및 목표

비디오-텍스트 검색에서 사전 학습된 단일 모달 전문가들(예: objects, actions, speech, OCR)을 활용하여 주석 비용을 줄인다.
자유 형식 텍스트 질의로 질의 가능한 견고한 고정 길이 비디오 표현을 개발한다.
협업 게이팅이 다양한 부분적으로 이용 가능한 신호를 효과적으로 통합하도록 한다.
여러 데이터셋에 걸쳐 접근법을 평가하여 일반화 및 기존 방법 대비 상대적 이점을 확립한다.

제안 방법

여러 개의 사전 학습된 단일 모달 전문가를 결합하여 작업별 임베딩으로 구성된 비디오-텍스트 joint 임베딩을 구축한다.
협업 게이팅 모듈을 적용하여 쌍별 전문가 관계를 계산하고 어텐션 벡터를 생성하며 전문가 표현을 보정한다.
전문가 임베딩을 공통 차원으로 투영하고 Gated Embedding Module (GEM)을 활용하여 정규화된 임베딩을 얻는다.
맥락적 단어 임베딩으로 텍스트 질의를 인코딩하고 NetVLAD로 집계한 뒤, 전문가별 하위공간으로 투영하고 공동 텍스트 임베딩을 구성한다.
양방향 최대 마진 랭킹 손실로 비디오와 텍스트 인코더를 함께 학습한다.
누락된 전문가를 0으로 패딩하고 혼합 가중치를 재정규화하여 일관된 유사도 점수를 유지한다.

실험 결과

연구 질문

RQ1다양한 사전 학습 전문가 표현을 집계하여 비디오와 텍스트의 공동 임베딩을 효과적으로 학습할 수 있는가?
RQ2일반적 신호(움직임, 외관, 장면) 대 특정 신호(ASR, OCR, 화면의 텍스트)가 검색 성능에 얼마나 기여하는가?
RQ3협업 게이팅 메커니즘이 비디오-텍스트 검색을 위한 정보 통합을 개선하는가?
RQ4제안된 CE 프레임워크가 표준 비디오 검색 벤치마크에서 기존 방법에 비해 얼마나 우수한가?

주요 결과

협업 전문가(Collaborative Experts)가 MSR-VTT, LSMDC, MSVD, DiDeMo, ActivityNet 등 다수의 벤치마크에서 기준선보다 일관되게 검색 성능을 향상시킨다.
강력한 일반 신호(외관, 모션, 장면)는 안정적인 기준을 제공하고, 구체적 신호(ASR, OCR, 화면의 텍스트)는 가치가 있지만 간헐적으로 이용 가능할 때 활용하기 어렵다.
협업 게이팅 메커니즘(전문가 간의 쌍별 관계)은 기존 방법보다 결합을 개선하고 더 간결한 매개변수화를 제공한다.
비디오당 학습 캡션 수를 늘리는 것은 더 많은 전문가를 추가하는 것과 비슷한 성능 향상을 제공하며, 여러 캡션과 다중 전문가의 결합이 가장 강력한 결과를 준다.
CE는 MSR-VTT, LSMDC, MSVD, DiDeMo, ActivityNet 등 여러 벤치마크에서 비디오-텍스트 및 텍스트-비디오 검색 설정에서 경쟁적이거나 최첨단 성과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.