QUICK REVIEW

[논문 리뷰] UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation.

Huaishao Luo, Lei Ji|arXiv (Cornell University)|2020. 02. 15.

Multimodal Machine Learning Applications참고 문헌 62인용 수 93

한 줄 요약

UniVL는 이중 인코더, 크로스 인코더, 디코더 아키텍처를 갖춘 통합형 비디오-언어 사전학습 모델을 제안하며, 다중모달 이해와 생성을 동시에 최적화하기 위해 다섯 가지 사전학습 목표를 사용한다. HowTo100M에서 훈련된 모델은 다섯 가지 유저 비디오-텍스트 작업에서 최신 기술 성능을 달성하며, 생성 작업에서의 사전학습-微조정 불일치를 감소시킴을 보여준다.

ABSTRACT

With the recent success of the pre-training technique for NLP and image-linguistic tasks, some video-linguistic pre-training works are gradually developed to improve video-text related downstream tasks. However, most of the existing multimodal models are pre-trained for understanding tasks, leading to a pretrain-finetune discrepancy for generation tasks. This paper proposes UniVL: a Unified Video and Language pre-training model for both multimodal understanding and generation. It comprises four components, including two single-modal encoders, a cross encoder, and a decoder with the Transformer backbone. Five objectives, including video-text joint, conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction, are designed to train each of the components. We further develop two pre-training strategies, stage by stage pre-training (StagedP) and enhanced video representation (EnhancedV), to make the training process of the UniVL more effective. The pre-train is carried out on a sizeable instructional video dataset HowTo100M. Experimental results demonstrate that the UniVL can learn strong video-text representation and achieves state-of-the-art results on five downstream tasks.

연구 동기 및 목표

주로 이해를 위해 최적화되지만 생성 작업에서 성능이 떨어지는 다중모달 모델에서 발생하는 사전학습-微조정 불일치 문제를 해결하기 위해.
이해와 생성을 위한 비디오 및 언어 표현을 동시에 학습할 수 있는 통합 아키텍처를 개발하기 위해.
비디오와 텍스트 모odal 간의 효과적인 정렬을 가능하게 하면서 조건부 생성을 지원하는 사전학습 목표 세트를 설계하기 위해.
단계별 사전학습과 향상된 비디오 표현 전략을 통해 훈련 효율성과 표현 품질을 향상시키기 위해.
다양한 유저 작업에서 모델의 효과성을 검증하기 위해 이해 및 생성 시나리오 양쪽 모두에서 평가하기 위해.

제안 방법

UniVL는 비디오와 텍스트를 위한 두 개의 단일 모달 인코더, 크로스 모달 상호작용을 위한 크로스 인코더, 자동회귀적 생성을 위한 디코더를 갖춘 트랜스포머 기반 아키텍처를 사용한다.
다섯 가지 사전학습 목표를 사용한다: 비디오-텍스트 통합 사전학습, 조건부 마스킹 언어 모델(CMLM), 조건부 마스킹 프레임 모델(CMFM), 비디오-텍스트 정렬, 언어 재구성.
두 가지 전략을 사용해 훈련한다: 점진적으로 표현을 정교화하는 단계별 사전학습(StagedP), 비디오 인코딩 품질을 향상시키는 강화된 비디오 표현(EnhancedV).
사전학습은 비디오와 텍스트 기술 설명이 짝지어진 대규모 지침 비디오 컬렉션인 HowTo100M 데이터셋에서 수행된다.
크로스 인코더와 디코더 구성 요소를 함께 최적화하여 생성을 위한 다중모달 종속성의 엔드 투 엔드 학습을 가능하게 한다.
아키텍처는 이해 및 생성 작업 모두에서의 유연성을 위해 인코더-디코더 및 인코더 전용 추론 모드를 지원한다.

실험 결과

연구 질문

RQ1통합 사전학습 프레임워크가 다중모달 이해 및 생성 작업을 효과적으로 지원할 수 있는가?
RQ2조건부 마스킹 모델링 목표(CMLM 및 CMFM)는 다중모달 표현 학습을 어떻게 향상시키는가?
RQ3단계별 사전학습 및 강화된 비디오 표현 전략은 모델 성능을 어느 정도 향상시키는가?
RQ4통합 아키텍처는 기존 모델에서 관찰된 사전학습-微조정 불일치를 줄이는가?
RQ5다양한 비디오-텍스트 유저 작업에서 UniVL은 기존 최신 기술 모델과 비교해 어떻게 성능을 내는가?

주요 결과

UniVL는 다섯 가지 유저 비디오-텍스트 작업에서 최신 기술 성능을 달성하며, 이해 및 생성 벤치마크 전반에 걸쳐 강력한 일반화 능력을 보여준다.
조건부 마스킹 언어 및 프레임 모델링 목표의 사용은 다중모달 정렬과 생성 품질을 크게 향상시킨다.
단계별 사전학습 전략(StagedP)은 엔드 투 엔드 훈련 대비 모델 수렴과 최종 성능을 향상시킨다.
강화된 비디오 표현 전략(EnhancedV)은 더 견고한 비디오 특징 학습을 이끌어내어 유저 작업 결과 향상에 기여한다.
모델는 사전학습-微조정 불일치를 줄여 기존 다중모달 모델보다 생성 작업으로의 전이 능력이 뛰어나다.
HowTo100M에서의 실증 결과는 UniVL가 다양한 작업으로 일반화 가능한 풍부한 전이 가능한 비디오-텍스트 표현을 학습함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.