QUICK REVIEW

[논문 리뷰] A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning

Gerald Schwiebert, Cornelius Weber|arXiv (Cornell University)|2022. 02. 27.

Speech and Audio Processing인용 수 7

한 줄 요약

이 논문은 헤센 주의회 회의에서 촬영한 250,000개의 영상으로 구성된 대규모 공개 독일어 입술 읽기 데이터셋인 GLips를 소개한다. 이 데이터셋은 어휘 수준의 입술 읽기용으로 처리되었으며, 자동화된 파이프라인을 통해 영어 LRW 데이터셋과 호환되도록 포맷화되었다. 이를 통해 X3D 딥 네트워크를 활용한 双방향 전이 학습이 가능해져 훈련 속도와 검증 성능이 크게 향상된다.

ABSTRACT

Large datasets as required for deep learning of lip reading do not exist in many languages. In this paper we present the dataset GLips (German Lips) consisting of 250,000 publicly available videos of the faces of speakers of the Hessian Parliament, which was processed for word-level lip reading using an automatic pipeline. The format is similar to that of the English language LRW (Lip Reading in the Wild) dataset, with each video encoding one word of interest in a context of 1.16 seconds duration, which yields compatibility for studying transfer learning between both datasets. By training a deep neural network, we investigate whether lip reading has language-independent features, so that datasets of different languages can be used to improve lip reading models. We demonstrate learning from scratch and show that transfer learning from LRW to GLips and vice versa improves learning speed and performance, in particular for the validation set.

연구 동기 및 목표

연구를 위해 대규모이며 법적으로 합법적인 독일어 입술 읽기 데이터셋을 구축하기 위해.
독일어와 영어 입술 읽기 시스템 간의 전이 학습을 가능하게 하기 위해.
다른 언어 간에 입술 읽기 특징이 언어에 관계없이 공통적인지 조사하기 위해.
보조 기술, 소음이 많은 환경에서의 음성 인식, ASR 향상 응용을 지원하기 위해.

제안 방법

헤센 주의회 회의 영상 250,000개를 공개적으로 확보하여 화자 얼굴에 집중한다.
자동화된 파이프라인을 사용해 입술 움직임 중심의 1.16초 클립을 추출한다.
클립을 96×96 픽셀로 자르고 훈련을 위해 어휘 수준의 애너테이션에 정렬한다.
훈련 및 전이 학습 실험에 X3D 딥 네트워크를 사용한다.
공개된 기록물이며 창작적으로 편집되지 않은 공적 인물의 영상 사용으로 독일 저작권법 및 DSGVO 규정을 준수한다.
GLips와 영어 LRW 데이터셋 간의 양방향 전이 학습을 수행한다.

실험 결과

연구 질문

RQ1저자원 언어인 독일어와 같은 언어에서 훈련할 때 전이 학습이 입술 읽기 성능을 향상시킬 수 있는가?
RQ2입술 읽기 모델이 다양한 언어 간에 언어에 관계없는 시각적 특징을 학습하는가?
RQ3GLips 데이터셋은 LRW와 같은 기존 영어 입술 읽기 벤치마크와 호환되는가?
RQ4LRW에서 GLips로의 전이 학습이 수렴 속도를 가속화하고 검증 정확도를 향상시키는가?

주요 결과

LRW에서 GLips로의 전이 학습이 훈련 속도와 검증 성능 향상에 기여했다.
GLips에서 LRW로의 전이 학습 역시 성능 향상을 가져왔으며, 언어 간에 공통된 시각적 특징이 있음을 시사한다.
X3D 모델은 전이 학습을 통해 두 데이터셋 모두에서 뛰어난 성능을 달성했다.
GLips 데이터셋은 LRW 형식과 호환되어 직접 비교 및 전이 학습이 가능하다.
생성 파이프라인이 향후 TextGrid 애너테이션을 활용한 문장 수준의 인식으로의 확장 가능성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.