QUICK REVIEW

[논문 리뷰] Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

Xing Cheng, Hezheng Lin|arXiv (Cornell University)|2021. 09. 09.

Multimodal Machine Learning Applications참고 문헌 38인용 수 66

한 줄 요약

CAMoE 제안, 혼합 전문가 다중 스트림 코퍼스 정렬 네트워크와 Dual Softmax Loss로 비디오-텍스트 검색의 콘텐츠 이질성을 해결하며 MSR-VTT, MSVD, LSMDC에서 SOTA를 달성한다.

ABSTRACT

Employing large-scale pre-trained model CLIP to conduct video-text retrieval task (VTR) has become a new trend, which exceeds previous VTR methods. Though, due to the heterogeneity of structures and contents between video and text, previous CLIP-based models are prone to overfitting in the training phase, resulting in relatively poor retrieval performance. In this paper, we propose a multi-stream Corpus Alignment network with single gate Mixture-of-Experts (CAMoE) and a novel Dual Softmax Loss (DSL) to solve the two heterogeneity. The CAMoE employs Mixture-of-Experts (MoE) to extract multi-perspective video representations, including action, entity, scene, etc., then align them with the corresponding part of the text. In this stage, we conduct massive explorations towards the feature extraction module and feature alignment module. DSL is proposed to avoid the one-way optimum-match which occurs in previous contrastive methods. Introducing the intrinsic prior of each pair in a batch, DSL serves as a reviser to correct the similarity matrix and achieves the dual optimal match. DSL is easy to implement with only one-line code but improves significantly. The results show that the proposed CAMoE and DSL are of strong efficiency, and each of them is capable of achieving State-of-The-Art (SOTA) individually on various benchmarks such as MSR-VTT, MSVD, and LSMDC. Further, with both of them, the performance is advanced to a big extend, surpassing the previous SOTA methods for around 4.6\% R@1 in MSR-VTT.

연구 동기 및 목표

시각 정보와 의미 정보를 다중 스트림으로 분해하여 VTR에서 비디오와 텍스트 간의 이질성을 해소한다.
다양한 교차 모달 표현을 학습하기 위해 CAMoE(다중 스트림 혼합 전문가) 도입.
대칭적 최적 매치를 강제하고 대조 학습에서 일방향 최적화 문제를 줄이기 위한 Dual Softmax Loss 제안.
CAMoE와 DSL이 개별적으로 및 공동으로 표준 벤치마크에서 SOTA를 향상시킴을 입증.
설계 선택을 이해하고 향후 교차 모달 사전 학습 모델에 대한 지침을 제공하기 위한 어블레이션 탐색.

제안 방법

CAMoE는 여러 전문가(융합, 엔티티, 액션)와 게이트를 사용하여 다양한 관점의 비디오 표현을 해당 텍스트 측면에 맞춰 융합한다.
문장 생성 전략(RKW, AKWE, MUW)이 텍스트를 의미 중심 입력으로 변환한다; 실험에서는 MUW를 선택했다.
세 가지 시각 프레임 집계 방식(mean pooling, se-attention, self-attention)을 다양한 전문가/게이트와 함께 사용하여 효율성과 성능을 달성한다.
Dual Softmax Loss는 교차 방향 사전 Pr을 도입하여 대칭적 교차 엔트로피를 수정하고 유사도 행렬을 대각선(정답 매치) 쪽으로 바이어스한다.
DSL은 온도 스케일링된 유사도에서 Pr를 계산하고 손실을 클리핑하여 Text-to-Video와 Video-to-Text 점수의 상호 높은 값을 선호하도록 하며, 한 줄 코드로 구현된다.
실험은 CLIP 기반 특징(Bert, ViT)과 MSR-VTT, MSVD, LSMDC에서의 표준 학습 프로토콜을 사용한다.

실험 결과

연구 질문

RQ1다중 스트림, 전문가 기반 아키텍처가 단일 스트림이나 두 스트림 모델보다 비디오와 텍스트 콘텐츠를 더 잘 정렬할 수 있는가?
RQ2이중 최적 매칭 가설과 제안된 Dual Softmax Loss가 텍스트와 비디오 간의 비대칭 매치를 보정하여 검색 정확도를 향상시키는가?
RQ3문장 생성 전략 및 시각 프레임 집계 선택이 성능에 얼마나 영향을 미치는가?
RQ4다른 방법과 데이터 세트에서도 CAMoE의 일반화 성능은 어떤가?
RQ5어블레이션은 향후 교차 모달 사전 학습 아키텍처 설계에 어떤 시사점을 제공하는가?

주요 결과

CAMoE (DSL 없이) 가 여러 벤치마크에서 새로운 SOTA를 보여주고 작업을 전문화된 전문가로 분해하여 견고성을 향상시킴.
DSL을 도입하면 CAMoE가 추가 이득을 얻으며, 특히 MSR-VTT에서 이전 SOTA 대비 R@1에서 약 4.6% 절대 향상을 달성.
DSL은 비디오-텍스트보다 텍스트-비디오에서 더 큰 이득을 보이며, 텍스트 설명이 비특이적일 수 있는 콘텐츠 이질성을 해결함.
MSR-VTT, MSVD, LSMDC에서 CAMoE와 DSL이 개별적으로 그리고 함께 R@1, R@5, R@10의 강한 성능 향상과 평균 순위의 감소를 제공.
다중 작업 입력과 선택적 게이팅이 단일 작업 또는 완전 게이트 구성보다 개선된 어블레이션 결과를 보여줌.
CLIP 기반 방법에 DSL을 적용하면 성능이 일관되게 향상되어, 접근 방식의 폭넓은 적용 가능성을 시사함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.