QUICK REVIEW

[논문 리뷰] VideoBERT: A Joint Model for Video and Language Representation Learning

Chen Sun, Austin Myers|arXiv (Cornell University)|2019. 04. 03.

Multimodal Machine Learning Applications참고 문헌 38인용 수 149

한 줄 요약

VideoBERT는 비디오 특징을 시각적 단어로 양자화하고 ASR에서 추출한 텍스트와 BErt-유사 트랜스포머로 결합하여 오픈-보캐뷸러 영상 이해, 제로샷 동작 분류, YouCook II에 대한 최첨단 영상 캡션 생성을 가능하게 한다.

ABSTRACT

Self-supervised learning has become increasingly important to leverage the abundance of unlabeled data available on platforms like YouTube. Whereas most existing approaches learn low-level representations, we propose a joint visual-linguistic model to learn high-level features without any explicit supervision. In particular, inspired by its recent success in language modeling, we build upon the BERT model to learn bidirectional joint distributions over sequences of visual and linguistic tokens, derived from vector quantization of video data and off-the-shelf speech recognition outputs, respectively. We use VideoBERT in numerous tasks, including action classification and video captioning. We show that it can be applied directly to open-vocabulary classification, and confirm that large amounts of training data and cross-modal information are critical to performance. Furthermore, we outperform the state-of-the-art on video captioning, and quantitative results verify that the model learns high-level semantic features.

연구 동기 및 목표

수동 라벨 없이도 공동 영상-언어 모델링을 통해 고수준의 의미적 영상 표현을 학습할 수 있음을 증명한다.
BERT를 discrete visual tokens 와 언어 토큰을 함께 다룰 수 있도록 adapt 하여 영상 및 언어 시퀀스에 대한 p(x, y)를 학습한다.
VideoBERT가 오픈-보캐뷸러 동작 분류를 지원하고 영상 캡션 작업에서 기존 방법들보다 우수함을 입증한다.
대규모 사전 학습 데이터의 영향 및 교차 모달 정보가 성능에 미치는 영향을 조사한다.
VideoBERT 피처의 다운스트림 작업(예: 캡션 생성)으로의 전이 가능성을 탐색한다.

제안 방법

3D 비디오 특징의 계층적 벡터 양자화를 통해 얻은 이산 시각 단어의 시퀀스로 비디오를 표현한다.
시퀀스 내 시각 토큰과 언어 토큰 모두를 포함하는 양방향 의존성을 학습하기 위해 BERT 스타일의 마스킹 토큰 목표를 사용한다.
텍스트-비디오 대응을 학습하기 위한 언어-시각 정렬 목표를 도입하고 [CLS] 표현을 사용하여 정렬을 예측한다.
영어 ASR을 포함한 대규모 YouTube 요리 비디오 데이터셋에서 텍스트 감독으로 학습하며, BERT-LARGE 체크포인트에서 초기화한다.
제로샷 동작 분류 용도로 확률적 모델로 평가하고, 캡션 작업을 위한 특징 추출기로 평가한다.
사전 학습 데이터 크기를 늘리면 성능이 단조롭게 향상되고 교차 모달 사전 학습이 캡션 생성 성능을 향상시킨다.

실험 결과

연구 질문

RQ1수동 라벨 없이도 공동 시각-언어 모델이 고수준의 의미적 영상 표현을 학습할 수 있는가?
RQ2BERT 기반 모델이 이산 시각 토큰과 언어 토큰을 함께 다루어 오픈-보캐뷸러 작업을 수행할 수 있는가?
RQ3교차 모달 학습(video와 text)이 영상 캡션에서 영상 전용 학습보다 개선되는가?
RQ4사전 학습 데이터의 크기가 학습 표현 및 다운스트림 성능에 어떤 영향을 미치는가?
RQ5VideoBERT 피처가 영상 캡션 및 다른 다운스트림 작업으로 효과적으로 전이될 수 있는가?

주요 결과

Method	Supervision	verb top-1 (%)	verb top-5 (%)	object top-1 (%)	object top-5 (%)
S3D [34]	yes	16.1	46.9	13.2	30.9
BERT (language prior)	no	0.0	0.0	0.0	0.0
VideoBERT (language prior)	no	0.4	6.9	7.7	15.3
VideoBERT (cross modal)	no	3.2	43.3	13.1	33.7

VideoBERT는 YouCook II에서 텍스트 전용 및 언어 사전 기반 기준선보다 우수한 오픈-보캐뷸러 동작 분류 성능을 달성한다.
사전 학습 데이터 크기를 10K에서 300K 비디오로 증가시키면 동사/객체 인식 지표가 단조롭게 증가한다.
VideoBERT는 YouCook II 캡션 지표에서 S3D 기준선을 능가하며, 교차 모달 VideoBERT(video+text)은 영상 전용 변형보다 우수한 성능을 보인다.
VideoBERT를 S3D 피처와 결합하면 BLEU, METEOR, ROUGE-L, CIDEr에서 최고의 캡션 생성 성능을 달성한다.
제로샷 캡션 생성 능력은 VideoBERT가 YouCook II 감독학습 없이도 학습된 시각-언어 표현을 활용할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.