QUICK REVIEW

[논문 리뷰] Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training

Yingwei Pan, Yehao Li|arXiv (Cornell University)|2020. 07. 05.

Multimodal Machine Learning Applications참고 문헌 45인용 수 27

한 줄 요약

이 논문은 웹 기반 GIF의 Alt-텍스트 주석을 자동으로 필터링하여 추출한 164,378개의 다양한 비디오-캡션 쌍을 포함하는 대규모 자동으로 정제된 비디오-문장 데이터셋인 Auto-captions on GIF을 소개한다. 저자들은 이 데이터셋에서 사전 훈련한 트랜스포머 기반 인코더-디코더 모델(TransED)을 제안하며, 이는 특히 MSR-VTT에서 미세조정될 경우 비디오 캡션 다운스트림 작업에서 성능을 크게 향상시켜 온라인 테스트 세트에서 CIDEr 점수 23.9로 최신 기술 수준에 도달한다.

ABSTRACT

In this work, we present Auto-captions on GIF, which is a new large-scale pre-training dataset for generic video understanding. All video-sentence pairs are created by automatically extracting and filtering video caption annotations from billions of web pages. Auto-captions on GIF dataset can be utilized to pre-train the generic feature representation or encoder-decoder structure for video captioning, and other downstream tasks (e.g., sentence localization in videos, video question answering, etc.) as well. We present a detailed analysis of Auto-captions on GIF dataset in comparison to existing video-sentence datasets. We also provide an evaluation of a Transformer-based encoder-decoder structure for vision-language pre-training, which is further adapted to video captioning downstream task and yields the compelling generalizability on MSR-VTT. The dataset is available at \url{http://www.auto-video-captions.top/2020/dataset}.

연구 동기 및 목표

일반적인 비디오 이해를 위한 대규모이고 다양한 비디오-문장 데이터셋의 부족 문제를 해결하기 위해.
웹 기반 GIF에서 대규모로 비디오-캡션 쌍을 수집하고 필터링하는 자동화된 파이프라인을 개발하기 위해.
대규모이고 다양한 프로그래밍 가능한 데이터셋을 사용하여 비전-언어 사전 훈련을 가능하게 하기 위해.
Auto-captions on GIF에서의 사전 훈련이 다운스트림 비디오 캡션 작업에 효과적인지 평가하기 위해.
비전-언어 사전 훈련된 인코더-디코더 모델이 MSR-VTT에서의 일반화 능력을 어떻게 보여주는지 입증하기 위해.

제안 방법

수십억 개의 웹 페이지에 걸친 웹 기반 GIF의 Alt-텍스트 속성에서 자동으로 비디오-문장 쌍을 추출한다.
다단계 필터링 파이프라인 적용: 낮은/높은 정서성, 부적절한 표현, 반복적인 토큰, 문법적으로 잘못된 문장 제거.
이름이 지정된 실체(예: 영화, TV 프로그램, 음악) 및 보일러플레이트 텍스트, 정보량이 낮은 표현을 포함한 문장 제거.
다양한 시각적 콘텐츠를 다루는 164,378개의 비디오-캡션 쌍을 포함한 대규모 비디오-문장 데이터셋 구축.
마스크된 시퀀스 생성, 마스크된 프레임 특징 회귀, 비디오-문장 매칭, 마스크된 언어 모델링의 네 가지 프록시 작업을 수행하는 트랜스포머 기반 인코더-디코더 아키텍처(TransED) 설계.
Auto-captions on GIF 데이터셋에서 TransED를 사전 훈련한 후, 교차 엔트로피와 CIDEr 기반 강화 학습을 사용하여 MSR-VTT에서 비디오 캡션을 위해 미세조정.

실험 결과

연구 질문

RQ1대규모로 자동으로 수집된 비디오-문장 데이터셋은 비전-언어 사전 훈련을 통해 일반적인 비디오 이해를 향상시킬 수 있는가?
RQ2Auto-captions on GIF에서의 비전-언어 사전 훈련은 다운스트림 비디오 캡션 작업에 얼마나 효과적인가?
RQ3Auto-captions on GIF와 같이 다양하고 웹 스케일의 데이터셋에서 사전 훈련하면, 작업 전용 데이터에서부터 훈련하는 것보다 더 나은 일반화 성능을 얻을 수 있는가?
RQ4사전 훈련과 강화 학습 기반 미세조정을 조합했을 때 비디오 캡션 성능에 어떤 영향을 미치는가?
RQ5사전 훈련된 TransED 모델의 성능은 MSR-VTT에서 최신 기술 수준의 모델과 비교해 어떻게 되는가?

주요 결과

Auto-captions on GIF 데이터셋은 발표 당시 공개된 비디오-문장 데이터셋 중 가장 큰 규모의 164,378개의 비디오-문장 쌍을 포함한다.
다단계 필터링 파이프라인을 사용하여 웹 기반 GIF에서 자동으로 생성된 이 데이터셋은 고도로 품질이 높고 다양하며 중복이 없는 캡션을 보장한다.
Auto-captions on GIF에서 TransED를 사전 훈련하면 MSR-VTT 비디오 캡션 벤치마크에서 성능이 크게 향상되며, 작업 전용 데이터로만 훈련된 모델보다 뛰어난 성능을 보인다.
최고의 성능을 보인 모델인 TransED RL + Pre-training는 온라인 테스트 세트에서 CIDEr 점수 23.9를 기록하여 이전 최신 기술 수준 결과를 초월한다.
CIDEr 보상 기반으로 미세조정된 모델(TransED RL + Pre-training)은 공식 테스트 분할에서 BERTScore F1 18.1과 CIDEr 점수 22.3을 기록하여 강력한 일반화 능력을 보여준다.
결과는 비전-언어 사전 훈련이 Auto-captions on GIF와 같이 대규모이고 다양한 자동 수집 데이터셋에서 이루어질 경우, 다양한 지표에서 다운스트림 비디오 캡션 성능을 향상시킨다는 점을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.