QUICK REVIEW

[논문 리뷰] HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

Linjie Li, Yen-Chun Chen|arXiv (Cornell University)|2020. 05. 01.

Multimodal Machine Learning Applications참고 문헌 76인용 수 51

한 줄 요약

HERO는 로컬 융합을 위한 Cross-modal Transformer와 글로벌 컨텍스트를 위한 Temporal Transformer를 갖춘 계층적 비디오+언어 사전 학습 모델을 도입하고, 시간 정합성을 학습하는 새로운 사전 학습 과 task (VSM 및 FOM)를 도입하여 다중 비디오+언어 작업에서 SOTA를 달성하고 How2R 및 How2QA라는 새로운 벤치마크를 도입합니다.

ABSTRACT

We present HERO, a novel framework for large-scale video+language omni-representation learning. HERO encodes multimodal inputs in a hierarchical structure, where local context of a video frame is captured by a Cross-modal Transformer via multimodal fusion, and global video context is captured by a Temporal Transformer. In addition to standard Masked Language Modeling (MLM) and Masked Frame Modeling (MFM) objectives, we design two new pre-training tasks: (i) Video-Subtitle Matching (VSM), where the model predicts both global and local temporal alignment; and (ii) Frame Order Modeling (FOM), where the model predicts the right order of shuffled video frames. HERO is jointly trained on HowTo100M and large-scale TV datasets to gain deep understanding of complex social dynamics with multi-character interactions. Comprehensive experiments demonstrate that HERO achieves new state of the art on multiple benchmarks over Text-based Video/Video-moment Retrieval, Video Question Answering (QA), Video-and-language Inference and Video Captioning tasks across different domains. We also introduce two new challenging benchmarks How2QA and How2R for Video QA and Retrieval, collected from diverse video content over multimodalities.

연구 동기 및 목표

확장 가능한 다중모달 사전학습 프레임워크를 개발하여 미세한 프레임-텍스트 정렬과 글로벌 비디오 컨텍스트를 포착한다.
자막을 로컬 프레임 컨텍스트와 융합하고 글로벌 시간 표현을 추출하기 위해 계층적 인코더를 활용한다.
비디오와 언어 간의 로컬 및 글로벌 시간 정렬을 강제하는 사전 학습 과제를 설계한다.
TV 쇼와 HowTo100M으로 사전 학습 데이터를 다양화하여 복잡한 사회 역학과 서사를 학습한다.
다양한 콘텐츠에서 멀티모달 이해를 평가하기 위한 비디오 QA 및 검색의 새로운 벤치마크를 도입한다.

제안 방법

자막 문장과 연관된 비디오 프레임의 로컬 융합을 위한 Cross-modal Transformer를 갖는 계층적 모델을 제안한다.
교차모달 출력으로부터 순차적이고 글로벌한 비디오 컨텍스트를 계산하기 위해 Temporal Transformer를 사용한다.
네 가지 사전 학습 과제 도입: Masked Language Modeling (MLM), Masked Frame Modeling (MFM) 두 가지 변형(MFFR 및 MNCE), Video-Subtitle Matching (VSM), Frame Order Modeling (FOM).
MLM에서 주변 텍스트와 정렬된 시각 프레임을 사용해 마스킹된 토큰을 예측; MFM에서 NCE 기반 목표를 사용해 마스킹된 비디오 특징을 재구성하거나 구분; VSM에서 로컬 및 글로벌 자막-비디오 정렬을 학습; FOM에서 일부 프레임을 섞은 후 원래 프레임 순서를 예측.
TV 및 HowTo100M 데이터셋에서 사전 학습하고, 여러 다운스트림 작업에서 상태-오브-더-아트 모델과의 비교/추정 연구를 수행한다.

실험 결과

연구 질문

RQ1계층적 비디오+언어 인코더가 평면(flat) 아키텍처보다 자막과 비디오 프레임 사이의 시간 정렬을 더 잘 활용할 수 있는가?
RQ2새로운 사전 학습 과제(VSM 및 FOM)가 비디오 QA 및 검색과 같은 다운스트림 작업의 시간 추론과 정렬을 향상시킬까?
RQ3다양한 데이터셋(TV 쇼 및 instructional 비디오)으로 학습하는 것이 다양한 비디오+언어 벤치마크에서 성능에 어떤 영향을 미치는가?
RQ4제안된 사전 학습 구성(MLM + MNCE + FOM + VSM)이 기준선과 비교해 다운스트림 작업에 미치는 영향은?
RQ5제안된 벤치마크 How2R 및 How2QA가 비디오 콘텐츠의 풍부한 멀티모달 이해를 효과적으로 평가하는가?

주요 결과

Hero는 텍스트 기반 비디오 검색, 비디오 QA, 비디오-언어 추론을 포함한 다수의 다운스트림 작업에서 새로운 SOTA를 달성한다.
최적의 사전 학습 구성 MLM + MNCE + FOM + VSM은 TVR, TVQA, How2R, How2QA에서 강력한 성능을 보인다.
명시적 로컬(Cross-modal) 및 글로벌(Temporal) 융합을 갖는 계층적 인코더가 평면형 BERT 계열 베이스라인보다 성능이 좋다.
VSM은 로컬 및 글로벌 자막-비디오 정렬을 학습하여 비디오-모먼트 검색을 개선하고, 특히 검색 작업에 이익을 준다.
FOM은 QA 작업의 시간 추론을 돕고, MNCE를 사용할 때 MFFR은 제한적인 추가 이점을 제공한다.
Hero는 다채널(video+subtitle) 및 단일 채널(video-only) 설정 모두에서 일반화가 잘 되어 특정 작업 SOTA 모델보다 성능이 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.