Skip to main content
QUICK REVIEW

[논문 리뷰] VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

Xin Wang, Jiawei Wu|arXiv (Cornell University)|2019. 04. 06.
Multimodal Machine Learning Applications참고 문헌 74인용 수 39
한 줄 요약

VaTeX는 영어와 중국어로 된 대규모 다국어 비디오 설명 데이터셋을 도입하고 평행 번역을 제시하며, 다국어 비디오 자막화 및 비디오 가이드 기계 번역 작업을 제안하고, 다국어 모델이 효과적이고 비디오 맥 context가 번역에 도움을 준다.

ABSTRACT

We present a new large-scale multilingual video description dataset, VATEX, which contains over 41,250 videos and 825,000 captions in both English and Chinese. Among the captions, there are over 206,000 English-Chinese parallel translation pairs. Compared to the widely-used MSR-VTT dataset, VATEX is multilingual, larger, linguistically complex, and more diverse in terms of both video and natural language descriptions. We also introduce two tasks for video-and-language research based on VATEX: (1) Multilingual Video Captioning, aimed at describing a video in various languages with a compact unified captioning model, and (2) Video-guided Machine Translation, to translate a source language description into the target language using the video information as additional spatiotemporal context. Extensive experiments on the VATEX dataset show that, first, the unified multilingual model can not only produce both English and Chinese descriptions for a video more efficiently, but also offer improved performance over the monolingual models. Furthermore, we demonstrate that the spatiotemporal video context can be effectively utilized to align source and target languages and thus assist machine translation. In the end, we discuss the potentials of using VATEX for other video-and-language research.

연구 동기 및 목표

  • 비디오 자막화 및 번역을 위한 대규모 다국어 벤치마크 제공.
  • 다양한 비디오에 영어 및 중국어 자막을 짝지음으로써 다국어 연구를 가능하게 한다.
  • 소형 다국어 모델이 여러 언어로 비디오를 더 효율적이고 효과적으로 설명할 수 있는지 조사한다.
  • 비디오 맥락을 활용해 언어 간 기계 번역을 개선할 가능성을 탐색한다.

제안 방법

  • 41,269개의 유효 비디오 클립, 825k개의 자막(영어 및 중국어), 그중 206k개의 영어-중국어 병렬 쌍을 포함하여 VaTeX를 구성한다.
  • 비디오당 10개의 영어 자막과 10개의 중국어 자막을 주석화하고, 비디오 콘텐츠와의 정렬을 보장하기 위해 후편집을 통해 번역을 얻는다.
  • 세 가지 다국어 자막화 모델 변형 제안: 두 가지 단일 언어 기초 모델, Shared Enc(공유 비디오 인코더, 언어 디코더), Shared Enc-Dec(언어 특화 단어 임베딩을 가진 공유 인코더 및 디코더).
  • 3D ConvNet(I3D) 특징과 양방향 LSTM 인코더를 이용한 덧쌈(attention) 기반 인코더-디코더 프레임워크를 채택하여 자막화를 수행한다.
  • 텍스트와 시공간 비디오 맥락 및 이중 어텐션(원문 텍스트와 비디오)을 갖춘 다모달 시퀀스-투-시퀀스 모델을 사용한 Video-Guided Machine Translation(VMT)을 도입한다.
  • VaTeX-English 및 VaTeX-Chinese에서 BLEU-4, METEOR, ROUGE-L, CIDEr로 모델을 평가한다.

실험 결과

연구 질문

  • RQ1다언어 학습이 단일 언어 모델에 비해 비디오 자막 품질을 향상시키는가?
  • RQ2공유 인코더/임베더를 가진 소형 통합 다국어 모델이 영어와 중국어로 비디오를 효과적으로 설명할 수 있는가?
  • RQ3시공간 비디오 맥락의 도입이 영어와 중국어 간 기계 번역(비디오 가이드 기계 번역)을 개선하는가?
  • RQ4언어 간 번역 시 비디오 맥락이 명사와 동사의 회복에 어떻게 도움을 주는가?
  • RQ5VaTeX 자막의 어휘적 특성과 다양성은 MSR-VTT와 같은 기존 데이터셋과 비교하여 어떤가?

주요 결과

  • VaTeX는 더 크고 다국어이며, 41.3k개의 비디오와 825k개의 자막(영어 및 중국어)을 포함하고, 206k개의 영어–중국어 번역 쌍을 포함한다.
  • 다국어 모델(Shared Enc 및 Shared Enc-Dec)은 BLEU-4, METEOR, ROUGE-L, CIDEr에서 단일 언어 기초보다 일관되게 우수하며 매개변수도 대폭 감소시킨다(Shared Enc −4.7M 및 Shared Enc-Dec −13.4M).
  • 비디오 맥락은 번역 성능을 향상시키며: VMT(LSTM 비디오 특징과 시간적 어텐션)는 강력한 기본 모델 대비 영어→중국어에서 BLEU-4 +2.27, 중국어→영어에서 +2.11의 이득을 준다.
  • 명사/동사 마스킹 실험은 마스킹이 증가할수록 VMT가 NMT보다 누락된 어휘를 더 잘 복원함을 보이고, 비디오 정보가 해석의 모호성 해소와 정렬에 도움을 준다.
  • VaTeX 자막은 MSR-VTT보다 길이가 길고 어휘적으로 더 다양하며 중복이 적고(동일 비디오 내 중복 없음), 영어와 중국어 전반에서 명사/동사 사용이 더 풍부하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.