QUICK REVIEW

[论文解读] LRS3-TED: a large-scale dataset for visual speech recognition

Triantafyllos Afouras, Joon Son Chung|arXiv (Cornell University)|Sep 3, 2018

Speech and Audio Processing参考文献 7被引用 280

一句话总结

本文提出 LRS3-TED，这是一个来自 TED/TEDx 视频的大规模多模态数据集，用于视觉和音视频语音识别，包含人脸轨迹、字幕和单词对齐。

ABSTRACT

This paper introduces a new multi-modal dataset for visual and audio-visual speech recognition. It includes face tracks from over 400 hours of TED and TEDx videos, along with the corresponding subtitles and word alignment boundaries. The new dataset is substantially larger in scale compared to other public datasets that are available for general research.

研究动机与目标

提供一个大规模、公开可用的基准，用于视觉语音识别（唇读）和音视频语音识别。
提供来自不同说话者的多模态数据（人脸轨迹、音频、带词级对齐的文本）。
通过提供一个共同的基准数据集，促进唇读模型之间的公平比较。
描述一个可扩展的数据收集流水线，从 YouTube 来源获取句子级和单词级对齐的数据。

提出的方法

从 TED/TEDx YouTube 视频开始的自动化多阶段数据收集流水线。
使用基于 SSD 的检测器进行人脸检测与跟踪，生成 224x224 的人脸轨迹，帧率为 25 fps。
使用标点作为边界进行句子级提取，并相应裁剪训练/验证/测试集。
使用 P2FA 强制对齐和基于 Kaldi 的 ASR 验证进行音视频对齐。
使用 SyncNet 进行 AV 同步和说话人验证，以确保口型与音频一致。
提供 pre-train、train-val 以及 test 的划分，pre-train 中存在重叠内容，但 test 数据相互独立。

实验结果

研究问题

RQ1在保持视频、音频和文本对齐的情况下，唇读和 AVSR 数据集能达到多大规模？
RQ2TED/TEDx 视频内容能否提供多样化的长时段人脸轨迹，适用于鲁棒的视觉语音识别模型？
RQ3以句子级和单词级对齐的多模态语料对基准测试唇读和 AVSR 系统有何影响？

主要发现

该数据集包含超过 400 小时的视频，总计 5,090 名说话者，119k 句子，pre-train 集中有 3.9M 词的词汇量。
Train-val 和 test 集分别包含 4,004 和 451 个视频，分别有 32k 和 1,452 句，分别有 358k 和 11k 词实例。
数据集提供 224x224 的人脸轨迹，帧率 25 fps，16 kHz 单声道音频，带对齐的逐字稿和词边界。
该流水线将基于 CNN 的人脸检测、镜头边界检测、强制对齐、Kaldi 验证和 AV 同步结合在一起，以确保准确的多模态对齐。
该数据集旨在支持唇读、音视频语音识别、语音增强以及其他 AV 学习任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。