[論文レビュー] VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research
VaTeXは英語と中国語の並列翻訳を備えた大規模な多言語ビデオ説明データセットを紹介し、多言語ビデオキャプショニングとビデオガイド機械翻訳タスクを提案する。多言語モデルは有効であり、ビデオ文脈が翻訳を支援することを示している。
We present a new large-scale multilingual video description dataset, VATEX, which contains over 41,250 videos and 825,000 captions in both English and Chinese. Among the captions, there are over 206,000 English-Chinese parallel translation pairs. Compared to the widely-used MSR-VTT dataset, VATEX is multilingual, larger, linguistically complex, and more diverse in terms of both video and natural language descriptions. We also introduce two tasks for video-and-language research based on VATEX: (1) Multilingual Video Captioning, aimed at describing a video in various languages with a compact unified captioning model, and (2) Video-guided Machine Translation, to translate a source language description into the target language using the video information as additional spatiotemporal context. Extensive experiments on the VATEX dataset show that, first, the unified multilingual model can not only produce both English and Chinese descriptions for a video more efficiently, but also offer improved performance over the monolingual models. Furthermore, we demonstrate that the spatiotemporal video context can be effectively utilized to align source and target languages and thus assist machine translation. In the end, we discuss the potentials of using VATEX for other video-and-language research.
研究の動機と目的
- ビデオキャプショニングと翻訳のための大規模で多言語のベンチマークを提供する。
- 英語と中国語のキャプションを多様な映像とペアリングして、多言語研究を可能にする。
- コンパクトな多言語モデルが複数言語でより効率的かつ効果的に動画を説明できるかを調査する。
- ビデオ文脈を活用して言語間の機械翻訳を向上させる可能性を探る。
提案手法
- 41,269件の有効な動画クリップ、825kのキャプション(英語と中国語)を含むVaTeXを構築し、206kの英語-中国語平行ペアを含む。
- 各動画に英語10件と中国語10件のキャプションを注釈付けし、動画内容と一致するようポストエディットによって翻訳を取得する。
- 3つの多言語キャプショニングモデルの Varianten を提案: 2つのモノリンガルベースライン、Shared Enc(共有ビデオエンコーダ、言語デコーダ)、Shared Enc-Dec(共有エンコーダとデコーダ、言語特有の単語埋め込み)。
- ドット積アテンションを用いた双方向LSTMエンコーダと3D ConvNet(I3D)特徴を用いた注意機構ベースのエンコーダ-デコーダフレームワークを採用してキャプショニングを行う。
- テキストと時空間ビデオ文脈およびデュアルアテンション(ソーステキストとビデオ)を持つマルチモーダルseq2seqモデルを用いたVideo-Guided Machine Translation(VMT)を導入する。
- VaTeX-EnglishとVaTeX-ChineseでBLEU-4、METEOR、ROUGE-L、CIDErを用いてモデルを評価する。
実験結果
リサーチクエスチョン
- RQ1多言語トレーニングはモノリンガルモデルと比較してビデオキャプショニングの品質を改善するか?
- RQ2共有エンコーダ/埋め込みを用いたコンパクトな統一多言語モデルは英語と中国語の動画を効果的に説明できるか?
- RQ3時空間ビデオ文脈を組み込むことで英語と中国語の翻訳(Video-Guided Machine Translation)が改善されるか?
- RQ4翻訳時にビデオ文脈が名詞・動詞の復元をどのように助けるか?
- RQ5MSR-VTTのような既存データセットと比較したVaTeXキャプションの語彙特性とダイバーシティはどうか?
主な発見
| モデル | BLEU-4 (EN) | METEOR (EN) | ROUGE-L (EN) | CIDEr (EN) | BLEU-4 (ZH) | METEOR (ZH) | ROUGE-L (ZH) | CIDEr (ZH) |
|---|---|---|---|---|---|---|---|---|
| Base w/o WT | 28.1 ±0.38 | 21.7 ±0.15 | 46.8 ±0.18 | 44.3 ±0.98 | 24.4 ±0.86 | 29.6 ±0.30 | 51.3 ±0.43 | 34.0 ±0.11 |
| Base | 28.1 ±0.32 | 21.6 ±0.19 | 46.9 ±0.16 | 44.3 ±0.10 | 24.9 ±0.20 | 29.7 ±0.21 | 51.5 ±0.28 | 34.7 ±0.47 |
| Shared Enc | 28.4 ±0.21 | 21.7 ±0.65 | 47.0 ±0.09 | 45.1 ±0.25 | 24.9 ±0.26 | 29.7 ±0.11 | 51.6 ±0.20 | 34.9 ±0.40 |
| Shared Enc-Dec | 27.9 ±0.50 | 21.6 ±0.55 | 46.8 ±0.19 | 44.2 ±0.23 | 24.9 ±0.25 | 29.8 ±0.23 | 51.7 ±0.09 | 35.0 ±0.18 |
- VaTeXはより大規模で多言語化しており、41.3k動画と825kキャプション(英語と中国語)、206kの英語–中国語翻訳ペアを含む。
- 多言語モデル(Shared Enc および Shared Enc-Dec)はBLEU-4、METEOR、ROUGE-L、CIDErでモノリンガルベースラインを一貫して上回り、パラメータを大幅に削減する(Shared Enc −4.7M、Shared Enc-Dec −13.4M)。
- ビデオ文脈は翻訳性能を向上させる:VMT(LSTMビデオ特徴と時間的アテンション)は強力なベースラインに対してBLEU-4で英語→中国語が+2.27、中国語→英語が+2.11の向上をもたらす。
- 名詞/動詞マスキング実験は、マスキングが増えるにつれてVMTがNMTより欠落した語彙要素をより良く回復することを示し、ビデオ情報が曖昧性の解消と整合性向上に役立つことを実証する。
- VaTeXのキャプションはMSR-VTTより長く語彙的に多様で、重複が少なく(動画内重複なし)、英語と中国語の名詞・動詞の使用がより豊かである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。