QUICK REVIEW

[논문 리뷰] CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

Han Fang, Pengfei Xiong|arXiv (Cornell University)|2021. 06. 21.

Multimodal Machine Learning Applications참고 문헌 38인용 수 130

한 줄 요약

CLIP2Video는 CLIP의 이미지-언어 사전 학습을 영상-텍스트 검색으로 전이시키며 두 모듈: Temporal Difference Block과 Temporal Alignment Block를 활용하여 MSR-VTT, MSVD, VATEX에서 최첨단 결과를 달성한다.

ABSTRACT

We present CLIP2Video network to transfer the image-language pre-training model to video-text retrieval in an end-to-end manner. Leading approaches in the domain of video-and-language learning try to distill the spatio-temporal video features and multi-modal interaction between videos and languages from a large-scale video-text dataset. Different from them, we leverage pretrained image-language model, simplify it as a two-stage framework with co-learning of image-text and enhancing temporal relations between video frames and video-text respectively, make it able to train on comparatively small datasets. Specifically, based on the spatial semantics captured by Contrastive Language-Image Pretraining (CLIP) model, our model involves a Temporal Difference Block to capture motions at fine temporal video frames, and a Temporal Alignment Block to re-align the tokens of video clips and phrases and enhance the multi-modal correlation. We conduct thorough ablation studies, and achieve state-of-the-art performance on major text-to-video and video-to-text retrieval benchmarks, including new records of retrieval accuracy on MSR-VTT, MSVD and VATEX.

연구 동기 및 목표

영상-텍스트 검색을 두 가지 독립적인 문제로 재정의한다: 이미지-텍스트 다중 모달 학습과 영상 프레임과 텍스트 간의 시간적 관계.
비교적 작은 데이터셋에서 엔드-투-엔드 학습을 가능하게 하기 위해 사전 학습된 이미지-언어 모델(CLIP)을 활용한다.
모션을 포착하고 맥락 단어와 영상 클립을 맞추어 교차 모달 검색을 향상시키기 위해 두 개의 시간적 모듈을 도입한다.

제안 방법

이미지-텍스트 임베딩에 CLIP 기반 초기화를 사용하고 비디오 프레임에 대해 별도의 시간적 모델링을 수행한다.
Temporal Difference Block (TDB)는 인접한 프레임 임베딩 사이에 모션 인식 토큰을 삽입하여 모션 표현을 향상시킨다.
Temporal Alignment Block (TAB)는 프레임과 단어 임베딩을 공동 공간에서 정렬하기 위해 K개의 공유 센터를 학습하고 모션 관련성에 따라 재가중한다.
대칭 대조 손실을 위해 전역 표현 (f^g)과 정렬된 표현 (f^a)를 집계한다.
비디오-텍스트 쌍에 대해 대칭 교차 엔트로피 손실로 학습하고 최종 유사도는 g-임베딩과 a-임베딩의 평균으로 계산한다.

실험 결과

연구 질문

RQ1이미지-언어 사전 학습을 어떻게 효과적으로 비디오-텍스트 검색으로 전이할 수 있을까?
RQ2대규모 비디오-언어 사전학습 없이도 시간 정보를 명시적으로 모델링하여 비디오-텍스트 정합성을 향상시킬 수 있을까?
RQ3시간 차이 및 정합 블록이 표준 벤치마크에서 측정 가능한 이점을 제공하는가?
RQ4정합 센터의 수가 검색 성능에 미치는 영향은 무엇인가?
RQ5추론에서 전역 표현과 정렬된 표현을 어떻게 결합해야 하는가?

주요 결과

텍스트-투-비디오와 비디오-투-텍스트 검색 모두에서 MSR-VTT, MSVD, VATEX에 대해 최첨단 성능을 달성한다.
Temporal Difference Block은 시간 처리 전에 모션 인식 토큰을 주입하여 성능을 크게 향상시킨다.
공유 센터를 가진 Temporal Alignment Block은 비디오 프레임과 맥락 단어 사이의 교차 모달 정합성을 향상시켜 추가 이득을 낸다.
전역 표현과 정렬된 표현의 균형 있는 조합(w = 0.5)이 최상의 검색 성능을 제공한다.
MSR-VTT (1k-A 프로토콜)에서 우리 방법은 Text→Video R@1 45.6 및 Video→Text R@1 43.5를 달성한다(표 3의 값).
MSR-VTT (1k-A 프로토콜)에서 Text→Video MdR 2.0 및 Video→Text MdR 2.0를 달성한다(표 3의 값).
VATEX에서 우리 방법은 여러 베이스라인을 능가하는 강력한 검색 성능을 달성한다(표 4-5).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.