[논문 리뷰] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
CLIP4Clip은 CLIP의 이미지-언어 사전학습을 엔드투엔드 비디오-텍스트 검색으로 전이하고, 세 가지 유사도 계산기를 탐구하며, 여러 비디오-텍스트 데이터셋에서 최신 성능(SOTA)을 달성한다.
Video-text retrieval plays an essential role in multi-modal research and has been widely used in many real-world web applications. The CLIP (Contrastive Language-Image Pre-training), an image-language pre-training model, has demonstrated the power of visual concepts learning from web collected image-text datasets. In this paper, we propose a CLIP4Clip model to transfer the knowledge of the CLIP model to video-language retrieval in an end-to-end manner. Several questions are investigated via empirical studies: 1) Whether image feature is enough for video-text retrieval? 2) How a post-pretraining on a large-scale video-text dataset based on the CLIP affect the performance? 3) What is the practical mechanism to model temporal dependency between video frames? And 4) The Hyper-parameters sensitivity of the model on video-text retrieval task. Extensive experimental results present that the CLIP4Clip model transferred from the CLIP can achieve SOTA results on various video-text retrieval datasets, including MSR-VTT, MSVC, LSMDC, ActivityNet, and DiDeMo. We release our code at https://github.com/ArrowLuo/CLIP4Clip.
연구 동기 및 목표
- 비디오-텍스트 검색에 단일 이미지 특성만으로 충분한지 평가한다.
- 대규모 비디오-텍스트 데이터에서 포스트-사전학습 CLIP의 영향을 평가한다.
- 비디오 프레임 간의 시간 의존성을 효과적으로 모델링한다.
- 비디오-텍스트 검색 성능에 대한 하이퍼파라미터 감도 분석한다.
제안 방법
- CLIP(ViT-B/32)으로 비디오 및 텍스트 인코더를 초기화한다.
- 세 가지 유사도 계산기 유형을 제시한다: 파라미터 프리(mean pooling), 순차적(LSTM 또는 Transformer), 타이트한 Transformer 기반 상호작용.
- 패치 임베딩에 대해 2D 대 3D 선형 투영을 비교하여 시간 정보를 포착한다.
- MIL-NCE를 사용하여 Howto100M-380k와 같은 대규모 비디오-텍스트 데이터세트에서 CLIP4Clip을 포스트-사전학습한다.
- 비디오-텍스트 방향과 텍스트-비디오 방향에 대해 대칭 교차 엔트로피 손실 s(v,t)로 학습한다.
- Uniform 프레임 샘플링(초당 1프레임)을 사용하고 새로운 모듈의 엔드투엔드 미세조정 finetuning을 수행한다.
- 가능한 한 CLIP에서 순차 및 타이트 타입의 새로운 매개변수를 초기화하고 Adam과 코사인 학습률 스케줄로 미세조정한다.
- 프리트레이닝 및 미세조정의 세부사항은 프레임 길이, 토큰 길이, GPU 구성 등으로 설명된 내용을 포함한다.
실험 결과
연구 질문
- RQ1비디오-텍스트 검색에서 비디오를 인코딩하기에 하나의 단일 이미지가 충분한가?
- RQ2대규모 비디오-텍스트 데이터세트에서 포스트-사전학습 CLIP의 검색 성능에 미치는 영향은 무엇인가?
- RQ3검색을 위한 비디오 프레임 간의 시간 의존성을 가장 잘 모델링하는 메커니즘은 무엇인가?
- RQ4데이터 세트 간 엔드투엔드 비디오-텍스트 검색 성능에 하이퍼파라미터가 어떤 영향을 미치는가?
주요 결과
- CLIP4Clip은 다양한 분할 및 설정에서 MSR-VTT, MSVC, LSMDC, ActivityNet, DiDeMo에 대해 최신 성능(SOTA)을 달성한다.
- 단일 이미지는 비디오-텍스트 검색을 위해 비디오를 효과적으로 인코딩하기에 충분하지 않다.
- 대규모 비디오-텍스트 데이터세트에서의 포스트-사전학습은 특히 제로샷 검색에서 성능을 향상시킨다.
- Mean pooling(파라미터 프리)이 작은 데이터세트에서 효과적이며, 시간 모델링(예: 자기 주의)을 추가하면 더 큰 데이터세트에서 도움이 된다.
- 대부분의 타이트 타입(교차 모달 상호작용) 구성은 데이터가 제한적일 때는 평균 풀링이나 순차형에 비해 성능이 떨어지나, 순차형/트랜스포머 기반 접근은 더 큰 데이터에서 이점을 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.