Skip to main content
QUICK REVIEW

[論文レビュー] LipNet: Sentence-level Lipreading.

Yannis Assael, Brendan Shillingford|arXiv (Cornell University)|Nov 5, 2016
Speech and Audio Processing参考文献 39被引用数 112
ひとこと要約

LipNet は、スパatiotemporal畳み込みとLSTMを組み合わせ、Connectionist Temporal Classification (CTC) 損失を用いて動画シーケンスを直接テキストにマッピングする、文単位の唇読みのための最初のエンド・ツー・エンドで、発話者に依存しないディーブラーニングモデルである。GRIDコーパスにおいて93.4%の精度を達成し、人間の唇読み者や従来の最先端手法を上回っている。

ABSTRACT

Lipreading is the task of decoding text from the movement of a speaker's mouth. Traditional approaches separated the problem into two stages: designing or learning visual features, and prediction. More recent deep lipreading approaches are end-to-end trainable (Wand et al., 2016; Chung & Zisserman, 2016a). All existing works, however, perform only word classification, not sentence-level sequence prediction. Studies have shown that human lipreading performance increases for longer words (Easton & Basala, 1982), indicating the importance of features capturing temporal context in an ambiguous communication channel. Motivated by this observation, we present LipNet, a model that maps a variable-length sequence of video frames to text, making use of spatiotemporal convolutions, an LSTM recurrent network, and the connectionist temporal classification loss, trained entirely end-to-end. To the best of our knowledge, LipNet is the first lipreading model to operate at sentence-level, using a single end-to-end speaker-independent deep model to simultaneously learn spatiotemporal visual features and a sequence model. On the GRID corpus, LipNet achieves 93.4% accuracy, outperforming experienced human lipreaders and the previous 79.6% state-of-the-art accuracy.

研究の動機と目的

  • 文単位の唇読みが可能なエンド・ツー・エンドのディーブラーニングモデルの開発を目的とする。これは、単語単位の分類を超えるものである。
  • 再帰的モデリングによる時間的文脈を活用することで、曖昧な視覚的発話の性能を向上させることを目的とする。
  • 手作業による視覚的特徴量の必要性を排除し、ビデオフレームから直接スパティオトロピカル表現を学習することを目的とする。
  • 1つの統一されたアーキテクチャをエンド・ツー・エンドで訓練することで、発話者に依存しない性能を達成することを目的とする。
  • GRIDのようなベンチマークデータセットで、既存の手法および人間の唇読み者を上回ることを目的とする。

提案手法

  • LipNet は、ビデオフレームからスパティオトロピカル特徴量を抽出するために3次元畳み込みニューラルネットワーク(3D-CNN)を用いる。これにより、空間的な口元の形状と時間的ダイナミクスの両方が捉えられる。
  • 抽出された特徴量は、視覚的特徴のシーケンスにおける長距離依存性をモデル化するため、双方向LSTMネットワークによって処理される。
  • モデルはエンド・ツー・エンドの訓練を可能にするためにConnectionist Temporal Classification (CTC) 損失を用いる。これにより、可変長の動画入力と転写テキストシーケンスの間のアライメントを、明示的なフレーム単位のアノテーションを必要とせずに実現できる。
  • アーキテクチャは、生のビデオフレーム上で完全にエンド・ツー・エンドで訓練され、視覚的表現とシーケンス予測の両方を同時に学習する。
  • 空間的および時間的パターンの共同学習を可能にするために、時間方向に逆伝播を伴う確率的勾配降下法が最適化に用いられる。

実験結果

リサーチクエスチョン

  • RQ1エンド・ツー・エンドのディーブラーニングモデルは、従来の単語単位のアプローチと比較して、優れた文単位の唇読み性能を達成できるか?
  • RQ2RNNを用いて長距離の時間的文脈をモデリングすることで、曖昧な視覚的発話認識の性能が向上するか?
  • RQ31つの発話者に依存しないモデルが、GRIDコーパスのような標準ベンチマークで人間の唇読み者を上回ることができるか?
  • RQ4手作業による視覚的特徴量を排除し、ビデオフレームから直接スパティオトロピカル表現を学習することは可能か?

主な発見

  • LipNet は、GRIDコーパスにおいて93.4%の単語単位の精度を達成し、以前の最先端手法の79.6%を大きく上回った。
  • モデルは経験を積んだ人間の唇読み者を上回った。同様のベンチマークで人間の専門家は約90%の精度を達成している。
  • スパティオトロピカル畳み込みの使用により、空間的な口元の配置とそのフレーム間での時間的変化の両方を効果的に学習できるようになった。
  • 双方向LSTMの統合により、視覚的シーケンスにおける長距離依存性を捉えることができ、文脈認識の向上が達成された。
  • CTC損失を用いたエンド・ツー・エンドの訓練により、動画入力とテキスト出力の間のロバストなアライメントが実現され、強制的アライメントの必要がなくなった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。