QUICK REVIEW

[論文レビュー] A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning

Gerald Schwiebert, Cornelius Weber|arXiv (Cornell University)|Feb 27, 2022

Speech and Audio Processing被引用数 7

ひとこと要約

本論文では、ヘッセン州議会の会議から収集された25万本の動画から構成される大規模かつ公開可能なドイツ語の唇読みデータセット、GLipsを紹介する。このデータセットは、単語レベルの唇読みに適した形で処理されており、自動パイプラインを用いて英語のLRWデータセットと互換性を持つ形式に変換されている。これにより、X3D深層ニューラルネットワークを用いた双方向的トランスファー学習が可能となり、学習速度と検証性能が顕著に向上する。

ABSTRACT

Large datasets as required for deep learning of lip reading do not exist in many languages. In this paper we present the dataset GLips (German Lips) consisting of 250,000 publicly available videos of the faces of speakers of the Hessian Parliament, which was processed for word-level lip reading using an automatic pipeline. The format is similar to that of the English language LRW (Lip Reading in the Wild) dataset, with each video encoding one word of interest in a context of 1.16 seconds duration, which yields compatibility for studying transfer learning between both datasets. By training a deep neural network, we investigate whether lip reading has language-independent features, so that datasets of different languages can be used to improve lip reading models. We demonstrate learning from scratch and show that transfer learning from LRW to GLips and vice versa improves learning speed and performance, in particular for the validation set.

研究の動機と目的

研究用に大規模かつ法的に整合性のあるドイツ語の唇読みデータセットを構築すること。
ドイツ語と英語の唇読みシステム間でのトランスファー学習を可能にすること。
異なる言語間で唇読みの特徴が言語に依存しないかどうかを調査すること。
補助技術、騒音環境下の音声認識、ASRの向上応用を支援すること。

提案手法

ヘッセン州議会の会議の動画を25万本収集し、発話者の顔に焦点を当てた。
自動パイプラインを用いて、唇の動きに中心を置いた1.16秒のクリップに動画を抽出した。
クリップを96×96ピクセルにクロップし、トレーニング用に単語レベルのアノテーションに合わせた。
トレーニングおよびトランスファー学習の実験にX3D深層ニューラルネットワークを用いた。
一般に公開され、創造的編集が施されていない公的人物の動画を用いることで、ドイツの著作権法およびDSGVOに準拠した。
GLipsと英語のLRWデータセットの間で双方向的トランスファー学習を実施した。

実験結果

リサーチクエスチョン

RQ1ドイツ語のようなリソースが限られた言語でトレーニングする場合、トランスファー学習が唇読みのパフォーマンスを向上させられるか？
RQ2唇読みモデルは、異なる言語間で言語に依存しない視覚的特徴を学習できるか？
RQ3GLipsデータセットは、LRWのような既存の英語の唇読みベンチマークと互換性があるか？
RQ4LRWからGLipsへのトランスファー学習は収束速度を速め、検証精度を向上させるか？

主な発見

LRWからGLipsへのトランスファー学習により、学習速度と検証性能が向上した。
GLipsからLRWへのトランスファー学習でもパフォーマンス向上が得られ、言語間で共通する視覚的特徴があることが示された。
X3Dモデルは、トランスファー学習を用いることで両データセットで優れたパフォーマンスを発揮した。
GLipsデータセットはLRW形式と互換性があり、直接的な比較やトランスファー学習が可能である。
公開済みで創造的編集のない公的人物の動画を用いることで、ドイツの著作権法およびDSGVO規制に準拠している。
データセット作成パイプラインは、TextGridアノテーションを用いた将来の文レベル認識への拡張を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。