QUICK REVIEW

[論文レビュー] LRS3-TED: a large-scale dataset for visual speech recognition

Triantafyllos Afouras, Joon Son Chung|arXiv (Cornell University)|Sep 3, 2018

Speech and Audio Processing参考文献 7被引用数 280

ひとこと要約

本論文は、TED/TEDx の映像から得られた、顔トラック、字幕、単語対 Alignment を備えた、視覚的および音声-視覚的音声認識のための大規模なマルチモーダルデータセットである LRS3-TED を提示する。

ABSTRACT

This paper introduces a new multi-modal dataset for visual and audio-visual speech recognition. It includes face tracks from over 400 hours of TED and TEDx videos, along with the corresponding subtitles and word alignment boundaries. The new dataset is substantially larger in scale compared to other public datasets that are available for general research.

研究の動機と目的

視覚的音声認識（リップリーディング）および音声-映像認識のための、大規模で公開可能なベンチマークを提供する。
多様な話者からのマルチモーダルデータ（顔トラック、音声、単語レベルの整列を含むテキスト）を提供する。
共通のベンチマークデータセットを提供することで、リップリーディングモデル間の公正な比較を可能にする。
YouTube ソースから文レベルおよび語レベルで整列されたデータを生成する、拡張性のあるデータ収集パイプラインを説明する。

提案手法

TED/TEDx の YouTube 動画から始まる自動の多段階データ収集パイプライン。
SSDベースの検出器を用いて、25 fps で 224x224 の顔トラックを生成する顔検出と追跡。
句読点を境界として文レベルで抽出し、それに応じて訓練/検証/テストセットをクリップ。
P2FA forced alignment と Kaldi ベースの ASR 検証を用いた音声・映像の整列。
SyncNet を用いた AV 同期と話者検証により、口の動きが音声と一致することを保証。
pre-train に重複コンテンツを含むが、test データは別構成の pre-train, train-val, test の分割を提供。

実験結果

リサーチクエスチョン

RQ1映像・音声・テキスト間の整列を維持しつつ、リップリーディングおよび音声-映像認識データセットはどれほど大規模になり得るか。
RQ2TED/TEDx の動画コンテンツは、頑健な視覚的音声認識モデルに適した多様で長尺の顔トラックを提供できるか。
RQ3文レベルおよび語レベルで整列されたマルチモーダルコーパスが、リップリーディングおよび AVSR システムのベンチマークに与える影響は何か。

主な発見

このデータセットは、事前学習セットで総計 400時間を超えるビデオ、話者 5,090 名、発話 119k、語彙 3.9M を含む。
訓練-検証セットはそれぞれ 4,004 本、テストセットは 451 本のビデオを含み、発話はそれぞれ 32k and 1,452、語の出現数は 358k and 11k。
データセットは 224x224 の顔トラックを 25 fps、16 kHz のモノラル音声、整列済み文字起こしと語の境界を提供。
パイプラインは、CNN ベースの顔検出、ショット境界検出、forced alignment、Kaldi 検証、および AV 同期を組み合わせ、正確なマルチモーダル整列を保証。
データセットはリップリーディング、音声-映像認識、音声強調など、その他の AV 学習タスクを支援することを意図している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。