Skip to main content
QUICK REVIEW

[论文解读] How2: A Large-scale Dataset for Multimodal Language Understanding

Ramon Sanabria, Ozan Çağlayan|arXiv (Cornell University)|Nov 1, 2018
Natural Language Processing Techniques参考文献 35被引用 152
一句话总结

How2 引入一个大规模、支持多语言的多模态教学视频数据集,包含英文字幕、逐词对齐和葡萄牙语翻译,并提供基线模型,展示多模态对 ASR、MT、STT 和摘要的益处。

ABSTRACT

In this paper, we introduce How2, a multimodal collection of instructional videos with English subtitles and crowdsourced Portuguese translations. We also present integrated sequence-to-sequence baselines for machine translation, automatic speech recognition, spoken language translation, and multimodal summarization. By making available data and code for several multimodal natural language tasks, we hope to stimulate more research on these and similar challenges, to obtain a deeper understanding of multimodality in language processing.

研究动机与目标

  • 提供一个大规模、自然发生的多模态数据集,连接教学主题中的语音、文本和视觉。
  • 使能多语言(英文-葡萄牙语)标注,以支持跨语言多模态任务。
  • 提供基线模型和任务,研究视觉上下文对 ASR、MT、STT 和摘要的影响。

提出的方法

  • 组装一个包含 79,114 条教学视频(~2,000 小时),具有英文字幕和英文摘要的地面实况。
  • 通过对机器翻译片段进行后编辑来众包葡萄牙语字幕翻译,重点关注质量控制。
  • 提取每段的视觉特征,并使用 Kaldi WSJ 模型的 Viterbi 对齐将逐字字幕与音频对齐。
  • 训练用于 ASR、英文→葡萄牙语的 MT、STT、以及多模态摘要的序列到序列基线,采用分层注意力。
  • 通过在多模态任务中学习视频特定的语音特征偏置,应用视觉自适应训练。
  • 使用 WER 评估 ASR、BLEU 评估 MT/STT,以及 ROUGE-L 评估摘要。

实验结果

研究问题

  • RQ1与文本仅基线相比,多模态信息(尤其是动作级别的视觉线索)是否能改善 ASR、MT、STT 和摘要任务的性能?
  • RQ2在英文↔葡萄牙语的多模态设置中,视觉化如何影响跨语言理解?
  • RQ3在一个大规模教学领域语料中,将语音、文本和视频配对时的数据特征和对齐质量如何?

主要发现

  • 多模态模型在 ASR 上的性能更好(WER 从 19.4 降至 18.0)。
  • 在此设置下,多模态 MT 相较基线 BLEU 未改变(54.4),但带自适应输入的多模态 MT 保持等效。
  • 多模态 STT 将 BLEU 从 36.0 提升到 37.2。
  • 多模态摘要将 ROUGE-L 从 53.9 提升到 54.9。
  • 300h 子集包含约 3.8M 英文单词和 3.6M 葡萄牙语单词;完整的 2000h 语料约 22.5M 英文单词。
  • 视觉特征(动作级别)和分层注意力有助于多模态任务的收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。