[논문 리뷰] Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations
본 논문은 EMCL를 도입합니다. EMCL은 Expectation-Maximization 기반의 대조 학습 프레임워크로서 컴팩트하고 의미적으로 정렬된 비디오-언어 표현을 학습하며, MSR-VTT, ActivityNet, LSMDC에서 최첨단 결과를 달성하고, 학습 중이거나 추론 중에도 기존 방법에 Plug-in으로 연결될 수 있습니다.
Most video-and-language representation learning approaches employ contrastive learning, e.g., CLIP, to project the video and text features into a common latent space according to the semantic similarities of text-video pairs. However, such learned shared latent spaces are not often optimal, and the modality gap between visual and textual representation can not be fully eliminated. In this paper, we propose Expectation-Maximization Contrastive Learning (EMCL) to learn compact video-and-language representations. Specifically, we use the Expectation-Maximization algorithm to find a compact set of bases for the latent space, where the features could be concisely represented as the linear combinations of these bases. Such feature decomposition of video-and-language representations reduces the rank of the latent space, resulting in increased representing power for the semantics. Extensive experiments on three benchmark text-video retrieval datasets prove that our EMCL can learn more discriminative video-and-language representations than previous methods, and significantly outperform previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing approaches either as a jointly training layer or an out-of-the-box inference module with no extra training, making it easy to be incorporated into any existing methods.
연구 동기 및 목표
- 모달리티 차이와 중복된 의미 차원으로 인한 텍스트-비디오 검색의 표준 대조 학습의 한계를 식별한다.
- 비디오와 텍스트 표현에 대해 저랭크(low-rank)이며 의미적으로 관련된 서브스페이스를 학습하도록 EMCL을 제안한다.
- EMCL-Net을 개발하여 EM iterations를 안정화하고 공동 또는 플러그-앤-플레이 사용을 가능하게 하는 파라미터 초기화 전략을 도입한다.
- MSR-VTT, ActivityNet, LSMDC에서 최첨단 검색 성능을 입증하고 기존 베이스라인에 애드온으로의 호환성을 보인다.
제안 방법
- Cross-modal 대조 학습을 Expectation-Maximization(EM) 프로세스로 formulate 하여 비디오와 텍스트 특징을 함께 표현하는 K개 잠재 서브스페이스를 찾는다.
- cap된 EM 설정에서 가우시안 커널을 사용하여 서브스페이스에 특징 구성요소의 Soft 할당을 계산하는 E-step과 서브스페이스 기저를 업데이트하는 M-step를 수행한다.
- K개의 저차원 서브스페이스에서 재구성을 통해 특징을 표현하여 intra-class 분산은 감소시키고 모달리티 간 inter-class 분산을 증가시킨다.
- 최대 확률 프로젝션(Maximum Probability Projection) 및 특징 재구성(Feature Reconstruction) 단계를 도입하여 비디오와 텍스트가 공유하는 컴팩트한 서브스페이스 표현을 얻는다.
- EMCL을 EMCL-Net에 통합하여 Cross-batch 정보를 전달하는 Initial Value Maintenance(M)와 β로 조정되는 재구성 융합(reconstruction fusion)을 도입한다.
- cosine 유사성에 기반한 InfoNCE 손실로 재구성된 비디오-텍스트 임베딩 간 학습을 수행한다.
실험 결과
연구 질문
- RQ1저랭크(shared) 서브스페이스 분해가 표준 대조 학습보다 시각-텍스트 모달리티 간 차이를 더 효과적으로 극복할 수 있는가?
- RQ2EM 기반 서브스페이스 프로젝션을 도입하면 같은 클래스 간의 크로스-모달 쌍의 의미적 클러스터링이 개선되고 서로 다른 클래스는 더 잘 구분되는가?
- RQ3EMCL이 기존 텍스트-비디오 검색 모델의 애드온이나 추론 전용 모듈로 넓게 호환될 수 있는가?
- RQ4초기화 전략, 서브스페이스의 수 K, EM 반복 횟수가 성능과 안정성에 어떤 영향을 미치는가?
주요 결과
| 방법 | 사전 학습 여부 | MSR-VTT R@1 | MSR-VTT R@5 | MSR-VTT R@10 | MSR-VTT MdR | ActivityNet R@1 | ActivityNet R@5 | ActivityNet R@50 | ActivityNet MdR | LSMDC R@1 | LSMDC R@5 | LSMDC R@10 | LSMDC MdR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| JSFusion | - | 10.2 | 31.2 | 43.2 | 13.0 | - | - | - | - | 9.1 | 21.2 | 34.1 | 36.0 |
| CE (Liu et al., 2019) | GPT-1 | 20.9 | 48.8 | 62.4 | 6.0 | 18.2 | 47.7 | 91.4 | 6.0 | 11.2 | 26.9 | 34.8 | 25.3 |
| MMT (Gabeur et al., 2020) | BERT-Base | 24.6 | 54.0 | 67.1 | 4.0 | 22.7 | 54.2 | 93.2 | 5.0 | 13.2 | 29.2 | 38.8 | 21.0 |
| CLIP4Clip (Luo et al., 2021) | CLIP (ViT-B/32) | 44.5 | 71.4 | 81.6 | 2.0 | 40.5 | 72.4 | 98.1 | 2.0 | 22.6 | 41.0 | 49.1 | 11.0 |
| EMCL-Net (Ours) | CLIP (ViT-B/32) | 46.8 | 73.1 | 83.1 | 2.0 | 41.2 | 72.7 | 98.1 | 2.0 | 23.9 | 42.4 | 50.9 | 10.0 |
| EMCL-Net (Ours) †† | CLIP (ViT-B/32) | 51.6 | 78.1 | 85.3 | 1.0 | 50.6 | 78.7 | 98.1 | 1.0 | 25.9 | 46.4 | 53.7 | 8.0 |
- EMCL은 표준 대조 학습 대비 intra-class는 더 촘촘하고 inter-class는 더 큰 차이를 보이며 더 구별력 있는 비디오-언어 표현을 제공합니다.
- 적절한 파라미터 초기화가 있는 EMCL-Net은 MSR-VTT, ActivityNet, LSMDC에서 텍스트-비디오 검색 및 비디오-텍스트 검색 양방향에서 일관되게 베이스라인을 향상시킵니다.
- 변략 구간(ablations)에서 EMCL은 PCA, 트랜스포머, 완전 연결층, 희소 자동인코더를 능가하며 비슷한 복잡도에서 의미적으로 정렬된 서브스페이스 표현의 이점을 강조합니다.
- 강력한 베이스라인(MMT, CLIP4Clip, DCR)에 EMCL을 적용하면 텍스트-비디오 검색의 R@1에서 최대 3.5% 절대 개선과 비디오-텍스트 검색에서 상당한 향상을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.