[논문 리뷰] UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
UniVL은 비디오-텍스트 데이터에 대해 다섯 가지 목적을 가진 통합 인코더-디코더 프레임워크를 제시하며, 미세 조정 후 여러 비디오-언어 태스크에서 최첨단 성과를 보인다.
With the recent success of the pre-training technique for NLP and image-linguistic tasks, some video-linguistic pre-training works are gradually developed to improve video-text related downstream tasks. However, most of the existing multimodal models are pre-trained for understanding tasks, leading to a pretrain-finetune discrepancy for generation tasks. This paper proposes UniVL: a Unified Video and Language pre-training model for both multimodal understanding and generation. It comprises four components, including two single-modal encoders, a cross encoder, and a decoder with the Transformer backbone. Five objectives, including video-text joint, conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction, are designed to train each of the components. We further develop two pre-training strategies, stage by stage pre-training (StagedP) and enhanced video representation (EnhancedV), to make the training process of the UniVL more effective. The pre-train is carried out on a sizeable instructional video dataset HowTo100M. Experimental results demonstrate that the UniVL can learn strong video-text representation and achieves state-of-the-art results on five downstream tasks.
연구 동기 및 목표
- 이해와 생성 태스크를 모두 지원하는 다중 모달 비디오-언어 프리트레이닝의 필요성과 동기를 제시한다.
- 대규모 instructional 비디오로부터 공동의 비디오-텍스트 표현을 학습한다.
- 두 개의 단일 모달 인코더, 교차 인코더, 디코더로 구성된 유연한 아키텍처를 제안한다.
- 학습 향상을 위한 단계적 프리트레이닝과 향상된 비디오 표현 전략을 도입한다.
제안 방법
- 독립적인 텍스트 및 비디오 인코더를 갖춘 이중 스트림 아키텍처, 상호 작용을 위한 크로스 인코더, 그리고 Transformer 기반 디코더.
- 다섯 가지 프리트레이닝 목표: video-text joint (MIL-NCE), conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction.
- 전체 목표 전에 텍스트-비디오 공동 학습으로 모델을 예열하기 위한 단계별 프리트레이닝(StagedP).
- 비디오 중심 생성을 강제하기 위해 텍스트 입력을 마스킹하여 향상된 비디오 표현(EnhancedV)을 도입한다.
- 다섯 가지 다운스트림 태스크에서 미세조정하여 다재다능함을 입증한다: text-based retrieval, multimodal captioning, action segmentation, action step localization, and multimodal sentiment analysis.
실험 결과
연구 질문
- RQ1통합된 비디오-언어 프리트레이닝 프레임워크가 다중 모달 이해 및 생성 태스크 모두에 대해 강력한 표현을 학습할 수 있는가?
- RQ2공동 인코더-디코더 프리트레이닝 목표가 이전의 단일 스트림 또는 이해만 가능한 모델과 비교하여 다운스트림 비디오-언어 태스크의 성능을 개선하는가?
- RQ3단계적 프리트레이닝과 향상된 비디오 표현 전략이 학습 효율성과 다운스트림 결과를 의미 있게 높이는가?
주요 결과
- 강력한 텍스트 기반 비디오 검색 성능을 달성, UniVL (FT-Joint) R@1 = 22.2 on Youcook2 and R@1 = 20.6 on MSR-VTT.
- 교차 인코더 융합으로 검색 성능 향상, UniVL (FT-Align) 이 R@1 = 28.9 (Youcook2)와 R@1 = 21.2 (MSR-VTT)를 달성.
- 이전 방법들에 비해 Youcook2에서 다중 모달 비디오 캡션 생성에서 최첨단 달성.
- COIN에서 액션 구간 구분의 큰 향상과 CrossTask에서 평균 재현율 42.0으로 액션 단계 위치 지정.
- CMU-MOSI에서 강력한 다중 모달 감성 분석 시연, 베이스라인보다 BA 및 Corr이 높음.
- HowTo100M(1.2M 비디오)에서 프리트레이닝이 비디오-텍스트 표현 학습에 효과적임을 보여주고 태스크 간 일반화 가능성을 입증.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.