Skip to main content
QUICK REVIEW

[논문 리뷰] CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

Han Fang, Pengfei Xiong|arXiv (Cornell University)|2021. 06. 21.
Multimodal Machine Learning Applications참고 문헌 38인용 수 130
한 줄 요약

CLIP2Video는 CLIP의 이미지-언어 사전 학습을 영상-텍스트 검색으로 전이시키며 두 모듈: Temporal Difference Block과 Temporal Alignment Block를 활용하여 MSR-VTT, MSVD, VATEX에서 최첨단 결과를 달성한다.

ABSTRACT

We present CLIP2Video network to transfer the image-language pre-training model to video-text retrieval in an end-to-end manner. Leading approaches in the domain of video-and-language learning try to distill the spatio-temporal video features and multi-modal interaction between videos and languages from a large-scale video-text dataset. Different from them, we leverage pretrained image-language model, simplify it as a two-stage framework with co-learning of image-text and enhancing temporal relations between video frames and video-text respectively, make it able to train on comparatively small datasets. Specifically, based on the spatial semantics captured by Contrastive Language-Image Pretraining (CLIP) model, our model involves a Temporal Difference Block to capture motions at fine temporal video frames, and a Temporal Alignment Block to re-align the tokens of video clips and phrases and enhance the multi-modal correlation. We conduct thorough ablation studies, and achieve state-of-the-art performance on major text-to-video and video-to-text retrieval benchmarks, including new records of retrieval accuracy on MSR-VTT, MSVD and VATEX.

연구 동기 및 목표

  • 영상-텍스트 검색을 두 가지 독립적인 문제로 재정의한다: 이미지-텍스트 다중 모달 학습과 영상 프레임과 텍스트 간의 시간적 관계.
  • 비교적 작은 데이터셋에서 엔드-투-엔드 학습을 가능하게 하기 위해 사전 학습된 이미지-언어 모델(CLIP)을 활용한다.
  • 모션을 포착하고 맥락 단어와 영상 클립을 맞추어 교차 모달 검색을 향상시키기 위해 두 개의 시간적 모듈을 도입한다.

제안 방법

  • 이미지-텍스트 임베딩에 CLIP 기반 초기화를 사용하고 비디오 프레임에 대해 별도의 시간적 모델링을 수행한다.
  • Temporal Difference Block (TDB)는 인접한 프레임 임베딩 사이에 모션 인식 토큰을 삽입하여 모션 표현을 향상시킨다.
  • Temporal Alignment Block (TAB)는 프레임과 단어 임베딩을 공동 공간에서 정렬하기 위해 K개의 공유 센터를 학습하고 모션 관련성에 따라 재가중한다.
  • 대칭 대조 손실을 위해 전역 표현 (f^g)과 정렬된 표현 (f^a)를 집계한다.
  • 비디오-텍스트 쌍에 대해 대칭 교차 엔트로피 손실로 학습하고 최종 유사도는 g-임베딩과 a-임베딩의 평균으로 계산한다.

실험 결과

연구 질문

  • RQ1이미지-언어 사전 학습을 어떻게 효과적으로 비디오-텍스트 검색으로 전이할 수 있을까?
  • RQ2대규모 비디오-언어 사전학습 없이도 시간 정보를 명시적으로 모델링하여 비디오-텍스트 정합성을 향상시킬 수 있을까?
  • RQ3시간 차이 및 정합 블록이 표준 벤치마크에서 측정 가능한 이점을 제공하는가?
  • RQ4정합 센터의 수가 검색 성능에 미치는 영향은 무엇인가?
  • RQ5추론에서 전역 표현과 정렬된 표현을 어떻게 결합해야 하는가?

주요 결과

  • 텍스트-투-비디오와 비디오-투-텍스트 검색 모두에서 MSR-VTT, MSVD, VATEX에 대해 최첨단 성능을 달성한다.
  • Temporal Difference Block은 시간 처리 전에 모션 인식 토큰을 주입하여 성능을 크게 향상시킨다.
  • 공유 센터를 가진 Temporal Alignment Block은 비디오 프레임과 맥락 단어 사이의 교차 모달 정합성을 향상시켜 추가 이득을 낸다.
  • 전역 표현과 정렬된 표현의 균형 있는 조합(w = 0.5)이 최상의 검색 성능을 제공한다.
  • MSR-VTT (1k-A 프로토콜)에서 우리 방법은 Text→Video R@1 45.6 및 Video→Text R@1 43.5를 달성한다(표 3의 값).
  • MSR-VTT (1k-A 프로토콜)에서 Text→Video MdR 2.0 및 Video→Text MdR 2.0를 달성한다(표 3의 값).
  • VATEX에서 우리 방법은 여러 베이스라인을 능가하는 강력한 검색 성능을 달성한다(표 4-5).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.