Skip to main content
QUICK REVIEW

[论文解读] A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning

Gerald Schwiebert, Cornelius Weber|arXiv (Cornell University)|Feb 27, 2022
Speech and Audio Processing被引用 7
一句话总结

本文介绍了GLips,一个大规模、公开可用的德语唇读数据集,包含来自黑森州议会会议的25万段视频,已处理为词级唇读数据。通过自动化处理流程,该数据集被格式化为与英文LRW数据集兼容,从而支持使用X3D深度神经网络进行双向迁移学习,显著提升了训练速度和验证性能。

ABSTRACT

Large datasets as required for deep learning of lip reading do not exist in many languages. In this paper we present the dataset GLips (German Lips) consisting of 250,000 publicly available videos of the faces of speakers of the Hessian Parliament, which was processed for word-level lip reading using an automatic pipeline. The format is similar to that of the English language LRW (Lip Reading in the Wild) dataset, with each video encoding one word of interest in a context of 1.16 seconds duration, which yields compatibility for studying transfer learning between both datasets. By training a deep neural network, we investigate whether lip reading has language-independent features, so that datasets of different languages can be used to improve lip reading models. We demonstrate learning from scratch and show that transfer learning from LRW to GLips and vice versa improves learning speed and performance, in particular for the validation set.

研究动机与目标

  • 创建一个大规模、符合法律规定的德语唇读研究数据集。
  • 实现德语与英语唇读系统之间的迁移学习。
  • 探究不同语言之间唇读特征是否具有语言无关性。
  • 支持辅助技术、嘈杂环境下的语音识别以及自动语音识别增强等应用。

提出的方法

  • 收集了25万个来自黑森州议会会议的公开视频,聚焦于说话者的面部。
  • 使用自动化处理流程,提取以唇部动作为中心的1.16秒视频片段。
  • 将片段裁剪为96×96像素,并与词级标注对齐,用于训练。
  • 使用X3D深度神经网络进行训练和迁移学习实验。
  • 通过使用公开录制、未经过创造性编辑的公众人物视频,确保符合德国版权法和DSGVO规定。
  • 在GLips与英文LRW数据集之间执行双向迁移学习。

实验结果

研究问题

  • RQ1在低资源语言(如德语)上训练时,迁移学习是否能提升唇读性能?
  • RQ2唇读模型是否能在不同语言间学习到语言无关的视觉特征?
  • RQ3GLips数据集是否与现有的英文唇读基准(如LRW)兼容?
  • RQ4从LRW到GLips的迁移学习是否能加速收敛并提高验证准确率?

主要发现

  • 从LRW到GLips的迁移学习显著提升了训练速度和验证性能。
  • 从GLips到LRW的迁移学习也带来了性能提升,表明不同语言间存在共享的视觉特征。
  • X3D模型在两个数据集上均通过迁移学习取得了优异性能。
  • GLips数据集与LRW格式兼容,支持直接比较和迁移学习。
  • 由于使用了公开录制、非创造性编辑的公众人物视频,该数据集符合德国版权法和DSGVO规定。
  • 该数据集创建流程支持未来扩展至句子级识别,结合TextGrid标注。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。