QUICK REVIEW

[논문 리뷰] LRS3-TED: a large-scale dataset for visual speech recognition

Triantafyllos Afouras, Joon Son Chung|arXiv (Cornell University)|2018. 09. 03.

Speech and Audio Processing참고 문헌 7인용 수 280

한 줄 요약

본 논문은 TED/TEDx 비디오에서 파생된 대규모 다중 모달 시각 및 음성-시각 인식 데이터셋 LRS3-TED를 제시합니다. 얼굴 트랙, 자막, 단어 정렬 정보를 포함합니다.

ABSTRACT

This paper introduces a new multi-modal dataset for visual and audio-visual speech recognition. It includes face tracks from over 400 hours of TED and TEDx videos, along with the corresponding subtitles and word alignment boundaries. The new dataset is substantially larger in scale compared to other public datasets that are available for general research.

연구 동기 및 목표

시각적 음성 인식(립 리딩) 및 음성-시각 인식에 대한 대규모 공개 벤치마크를 제공한다.
다양한 화자들의 다중 모달 데이터(얼굴 트랙, 음성, 단어 수준 정렬이 있는 텍스트)를 제공한다.
립 리딩 모델 간 공정한 비교를 위해 공통 벤치마크 데이터셋을 제공한다.
YouTube 소스로부터 문장 수준 및 단어 수준 정렬 데이터를 얻는 확장 가능한 데이터 수집 파이프라인을 설명한다.

제안 방법

TED/TEDx YouTube 비디오에서 시작하는 자동 다단계 데이터 수집 파이프라인.
SSD 기반 탐지기를 사용하여 25 fps의 224x224 얼굴 트랙을 생성하기 위한 얼굴 검출 및 트랙킹.
구두점 경계를 문장 수준의 경계로 사용하고 학습/검증/테스트 세트를 이에 맞춰 잘라내어 추출한다.
P2FA 강제 정렬 및 Kaldi 기반 ASR 검증을 사용한 음성-시각 정렬.
SyncNet을 이용한 AV 동기화 및 화자 검증으로 입 모양이 오디오와 일치하는지 확인한다.
사전 학습, 학습-검증, 테스트 분할을 제공하되, 사전 학습 데이터에는 중복 콘텐츠를 허용하되 테스트 데이터는 서로 분리되어 있다.

실험 결과

연구 질문

RQ1비디오, 음성, 텍스트 간의 정렬을 유지하면서 립 리딩 및 음성-시각 인식 데이터셋의 규모를 얼마나 크게 만들 수 있는가?
RQ2TED/TEDx 비디오 콘텐츠가 robust한 시각적 음성 인식 모델에 적합한 다양한 길이의 얼굴 트랙을 제공할 수 있는가?
RQ3문장 수준 및 단어 수준 정렬이 된 다중 모달 코퍼스가 립 리딩 및 AVSR 시스템 벤치마크에 미치는 영향은 무엇인가?

주요 결과

데이터셋은 총 400시간이 넘는 비디오와 총 5,090명의 화자, 119k 발화, 예비 학습 세트에서 3.9M 단어를 포함합니다.
학습-검증 및 테스트 세트는 각각 4,004개와 451개의 비디오를 포함하고, 각각 32k와 1,452개의 발화, 각각 358k와 11k 개의 단어를 포함합니다.
데이터셋은 25 fps의 224x224 얼굴 트랙과 정렬된 대본 및 단어 경계가 있는 16 kHz 단일 채널 오디오를 제공합니다.
파이프라인은 CNN 기반 얼굴 검출, 샷 경계 탐지, 강제 정렬, Kaldi 검증, AV 동기화를 결합하여 정확한 다중 모달 정렬을 보장합니다.
데이터셋은 립 리딩, 음성-시각 인식, 음성 향상 및 기타 AV 학습 과제에 대한 지원을 목표로 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.