[논문 리뷰] VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling
VIOLET은 완전한 엔드-투-엔드 Video Swin Transformer-based VidL 모델과 새로운 Masked Visual-token Modeling pre-training task를 도입하여, 텍스트-대-비디오 검색 및 비디오 QA 벤치마크 전반에서 최첨단 결과를 달성하면서 시간 동역학을 명시적으로 모델링합니다.
A great challenge in video-language (VidL) modeling lies in the disconnection between fixed video representations extracted from image/video understanding models and downstream VidL data. Recent studies try to mitigate this disconnection via end-to-end training. To make it computationally feasible, prior works tend to "imagify" video inputs, i.e., a handful of sparsely sampled frames are fed into a 2D CNN, followed by a simple mean-pooling or concatenation to obtain the overall video representations. Although achieving promising results, such simple approaches may lose temporal information that is essential for performing downstream VidL tasks. In this work, we present VIOLET, a fully end-to-end VIdeO-LanguagE Transformer, which adopts a video transformer to explicitly model the temporal dynamics of video inputs. Further, unlike previous studies that found pre-training tasks on video inputs (e.g., masked frame modeling) not very effective, we design a new pre-training task, Masked Visual-token Modeling (MVM), for better video modeling. Specifically, the original video frame patches are "tokenized" into discrete visual tokens, and the goal is to recover the original visual tokens based on the masked patches. Comprehensive analysis demonstrates the effectiveness of both explicit temporal modeling via video transformer and MVM. As a result, VIOLET achieves new state-of-the-art performance on 5 video question answering tasks and 4 text-to-video retrieval tasks.
연구 동기 및 목표
- 고정된 비디오 표상과의 단절을 극복하기 위해 엔드-투-엔드 VidL 모델링의 동기를 제시한다.
- Video Swin Transformer를 사용하여 시공간 동역학을 명시적으로 모델링한다.
- Masked Visual-token Modeling (MVM)을 도입하여 비디오 패치의 이산 시각적 토큰을 학습한다.
- VT를 크로스-모달 학습 및 MVM과 결합하여 다운스트림 VidL 작업의 성능을 향상시킴을 보여준다.
- 여러 비디오 QA 및 검색 벤치마크에서 최첨단 결과를 입증한다.
제안 방법
- 비디오 프레임을 희소 샘플링하여 명시적 공간-시간 모델링으로 Encode하기 위해 Video Swin Transformer를 사용한다.
- 텍스트 입력 처리를 위한 Language Embedder와 비디오-텍스트 모달리티를 융합하는 Cross-modal Transformer를 사용한다.
- 세 가지 작업으로 프리트레이닝한다: Masked Language Modeling (MLM), Visual-Text Matching (VTM), 및 Masked Visual-token Modeling (MVM).
- MVM은 프레임을 이산 VAE (dVAE)로 토큰화하고, 마스킹된 시각 토큰을 예측하여 원래 패치를 재구성한다.
- 주목 가능한 토큰/패치에 집중하여 MLM과 MVM 신호를 강화하는 Blockwise Masking 및 Attended Masking을 채택한다.
- YT-Temporal, WebVid, ConceptualCaptions 데이터셋을 포함하는 커리큘럼으로 이미지-텍스트 및 비디오-텍스트 데이터에서 엔드-투-엔드로 학습한다.
실험 결과
연구 질문
- RQ1비디오 트랜스포머를 통한 Explicit한 시간 모델링이 단순한 평균 풀링이나 프레임 피처의 연결보다 VidL 작업에서 더 나은가?
- RQ2Masked Visual-token Modeling (MVM)이 비디오-언어 프리트레이닝에서 기존의 시각 마스킹 전략(MRM/MFM)보다 측정 가능한 이점을 제공하는가?
- RQ3이미지-텍스트와 비디오-텍스트 데이터의 공동 프리트레이닝이 텍스트-대-비디오 검색 및 비디오 QA의 성능에 어떤 영향을 미치는가?
- RQ4다양한 프리트레이닝 데이터(WebVid, CC, YT-Temporal)가 다운스트림 VidL 작업에 미치는 영향은 무엇인가?
- RQ5MVM과 함께 엔드-투-엔드 VidL 학습이 여러 벤치마크에서 최첨단 결과를 달성할 수 있는가?
주요 결과
- VIOLET은 여러 텍스트-대-비디오 검색 벤치마크 및 비디오 QA 데이터세트에서 새로운 최첨단 성능을 달성한다.
- Video Swin Transformer를 사용한 명시적 시간 모델링은 평균 풀링 및 프레임-연결 기준보다 일관된 이점을 제공한다.
- Masked Visual-token Modeling (MVM)은 다운스트림 VidL 성능을 MRM/MFM 또는 MLM 기반의 시각 마스킹보다 크게 향상시킨다.
- WebVid+CC 및 YT-Temporal 데이터에 대한 프리트레이닝은 강력한 개선을 제공하며, WebVid+CC는 강력한 크로스-모달 학습 신호를 제공한다.
- MVM으로의 엔드-투-엔드 학습은 비교적 modest한 컴퓨트와 프레임 해상도에서도 이점이 있으며, 더 큰 규모의_APPROACH와 경쟁력 있는 성능을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.