QUICK REVIEW

[論文レビュー] LipNet: End-to-End Sentence-level Lipreading

Yannis Assael, Brendan Shillingford|arXiv (Cornell University)|Nov 5, 2016

Speech and Audio Processing参考文献 49被引用数 189

ひとこと要約

LipNetは、空間-時間のCNNs、Bi-GRUs、そしてCTC損失を用いて口のビデオフレーム列を文レベルのテキストへ直接写像する初のエンドツーエンドモデルであり、GRID上で最先端の結果を達成します。

ABSTRACT

Lipreading is the task of decoding text from the movement of a speaker's mouth. Traditional approaches separated the problem into two stages: designing or learning visual features, and prediction. More recent deep lipreading approaches are end-to-end trainable (Wand et al., 2016; Chung & Zisserman, 2016a). However, existing work on models trained end-to-end perform only word classification, rather than sentence-level sequence prediction. Studies have shown that human lipreading performance increases for longer words (Easton & Basala, 1982), indicating the importance of features capturing temporal context in an ambiguous communication channel. Motivated by this observation, we present LipNet, a model that maps a variable-length sequence of video frames to text, making use of spatiotemporal convolutions, a recurrent network, and the connectionist temporal classification loss, trained entirely end-to-end. To the best of our knowledge, LipNet is the first end-to-end sentence-level lipreading model that simultaneously learns spatiotemporal visual features and a sequence model. On the GRID corpus, LipNet achieves 95.2% accuracy in sentence-level, overlapped speaker split task, outperforming experienced human lipreaders and the previous 86.4% word-level state-of-the-art accuracy (Gergen et al., 2016).

研究の動機と目的

自動リップリーディングを動機づけ、ビデオから文レベルのテキストを直接予測するための中間の語レベルステップを排除する。
時空間的な視覚特徴とシーケンスモデリングを共同で学習するエンドツーエンドアーキテクチャを開発する。
GRIDという公開の文レベルリップリーディングデータセットで有効性を示し、人間の性能と比較する。
学習された表現を分析し、モデルがどこに注意を向けているか、ビセムがどのように混乱するかを理解する。

提案手法

ビデオフレームから運動感知特徴を抽出するために空間-時間畳み込みニューラルネットワーク（STCNN）を使用する。
時系列情報を集約し、シーケンス出力をモデル化するために双方向GRU（Bi-GRUs）を組み込む。
各時間ステップで線形層とソフトマックスを適用してトークン分布を生成する。
整列されていない可変長シーケンスを扱うためにCTC損失でエンドツーエンドに訓練する。
近似的な最尤推定予測を生成するためにCTCビーム探索を用いて評価する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドのモデルは、アラインメントなしでビデオから文レベルのリップリーディング列を直接予測できるか。
RQ2時空間特徴と時間的集約は、語レベルまたは空間のみのモデルより文レベルのリップリーディングを改善するか。
RQ3未知の話者に対して文レベルのリップリーディングタスクでどれだけ一般化するか。
RQ4サリエンシーマップとビセム解析は、LipNetが学習した表現について何を明らかにするか。

主な発見

方法	CER（未知）	WER（未知）	CER（重複）	WER（重複）
聴覚障害者（avg）	-	47.7%	-	-
Baseline-LSTM	38.4%	52.8%	15.2%	26.3%
Baseline-2D	16.2%	26.7%	4.3%	11.6%
Baseline-NoLM	6.7%	13.6%	2.0%	5.6%
LipNet	6.4%	11.4%	1.9%	4.8%

LipNetはGRIDの重複話者スプリットで文レベルの精度95.2%を達成。
LipNetは未知の話者で88.6%の精度を達成し、良好な一般化を示す。
LipNetはGRIDで聴覚障害ベースラインを大幅に上回り、未見での平均WERは約11.4%、重複は4.8%、平均WERで46%Eの改善。
STCNNとBi-GRUsは2D畳み込みベースラインを上回り、時空間的特徴学習の重要性を示す。
CTC対応のエンドツーエンド学習は明示的なアライメントを回避し、高い性能を生む（NoLMベースラインは言語モデリングの利点を示す）。
サリエンシー分析はLipNetが音素的に関連する領域に注意を向けることを示し、エラーの大半はビセム群内で発生する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。