QUICK REVIEW
[論文レビュー] How2: A Large-scale Dataset for Multimodal Language Understanding
Ramon Sanabria, Ozan Çağlayan|arXiv (Cornell University)|Nov 1, 2018
Natural Language Processing Techniques参考文献 35被引用数 152
ひとこと要約
How2は、英語字幕、語彙レベルの対応、ポルトガル語翻訳を備えた大規模な多言語・多模態の教育動画データセットを紹介し、ASR、MT、STT、要約の多模態利点を示すベースラインを提供します。
ABSTRACT
In this paper, we introduce How2, a multimodal collection of instructional videos with English subtitles and crowdsourced Portuguese translations. We also present integrated sequence-to-sequence baselines for machine translation, automatic speech recognition, spoken language translation, and multimodal summarization. By making available data and code for several multimodal natural language tasks, we hope to stimulate more research on these and similar challenges, to obtain a deeper understanding of multimodality in language processing.
研究の動機と目的
- 教育トピック全体で、音声・テキスト・視覚情報を結びつける大規模で自然発生的な多模態データセットを提供する。
- クロスリンガル多模態タスクを支援するための、英語-ポルトガル語の多言語注釈を有効にする。
- ASR、MT、STT、要約に対する視覚的文脈の影響を研究するためのベースラインモデルとタスクを提供する。
提案手法
- 英語字幕と英語の要約のグラウンドトゥルースを備えた79,114本の教育動画(約2,000時間)データセットを作成する。
- 機械翻訳セグメントのポストエディットを通じて字幕のポルトガル語翻訳をクラウドソーシングし、品質管理に重点を置く。
- 各クリップの視覚特徴を抽出し、Kaldi WSJモデルを用いたViterbiアライメントで語彙レベルの字幕を音声に対して整列させる。
- 階層的アテンションを用いて、ASR、English→PortugueseのMT、STT、マルチモーダル要約のシーケンス対シーケンスのベースラインを訓練する。
- マルチモーダルタスクで音声特徴のビデオ特異バイアスを学習することで、視覚適応訓練を適用する。
- ASRのWER、MT/STTのBLEU、要約のROUGE-Lで評価する。

実験結果
リサーチクエスチョン
- RQ1テキストのみのベースラインと比較して、マルチモーダル情報(特にアクションレベルの視覚手掛かり)はASR、MT、STT、要約タスクの性能を向上させるか?
- RQ2英語↔ポルトガル語のマルチモーダル設定における視覚情報は、クロスランゲージ理解にどのように影響するか?
- RQ3大規模な教育ドメインコーパスで音声・テキスト・動画を組み合わせたときのデータ特性とアライメント品質はどうなるか?
主な発見
| タスク | ベースライン | マルチモーダル(spc) |
|---|---|---|
| ASR(WER %) | 19.4 | 18.0 |
| MT(BLEU) | 54.4 | 54.4 |
| STT(BLEU) | 36.0 | 37.2 |
| SUM(ROUGE-L) | 53.9 | 54.9 |
- マルチモーダルモデルはASR性能を向上させ、WERは19.4から18.0へ低下。
- この設定ではBLEUはベースライン(54.4)と同じだが、適応入力を用いたマルチモーダルMTは同等性を維持。
- マルチモーダルSTTはBLEUを36.0から37.2へ向上させる。
- マルチモーダル要約はROUGE-Lを53.9から54.9へ改善。
- 300hサブセットには約3.8Mの英語単語と3.6Mのポルトガル語単語が含まれ、全体の2000hコーパスには約22.5M英語単語がある。
- 視覚特徴(アクションレベル)と階層型アテンションは、マルチモーダルタスクでの利得に寄与する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。