Skip to main content
QUICK REVIEW

[論文レビュー] Lip Localization and Viseme Classification for Visual Speech Recognition

Salah Werda, Walid Mahdi|arXiv (Cornell University)|Jan 19, 2013
Speech and Audio Processing参考文献 24被引用数 44
ひとこと要約

本論文は、顔画像内の唇をアクティブアパーニアンモデル(AAM)を用いて最初に局所化し、その後、唇の形状に基づく発音単位(ビゼム)をサポートベクターマシン(SVM)を用いて分類する二段階フレームワークを提案する。この手法は、照明や姿勢の変動に強く、標準データセットで92.5%の高い分類精度を達成した。

ABSTRACT

The need for an automatic lip-reading system is ever increasing. Infact, today, extraction and reliable analysis of facial movements make up an important part in many multimedia systems such as videoconference, low communication systems, lip-reading systems. In addition, visual information is imperative among people with special needs. We can imagine, for example, a dependent person ordering a machine with an easy lip movement or by a simple syllable pronunciation. Moreover, people with hearing problems compensate for their special needs by lip-reading as well as listening to the person with whome they are talking.

研究の動機と目的

  • 聴覚障害者を支援し、マルチメディア通信システムを向上させるための自動視覚的発話認識システムの開発。
  • 照明、姿勢、顔の表情の変動がある中でも、ビデオフレーム内の唇を正確に局所化する課題に対処すること。
  • 局所化された唇領域から特徴を抽出することで、ビゼム分類の精度を向上させること。
  • 特別なニーズがある人々向けの唇読みインターフェースや、帯域が制限される通信システムなどの実用的応用を可能にすること。

提案手法

  • 唇の局所化は、手動でラベル付けされた唇の輪郭を含む顔画像データセットで学習されたアクティブアパーニアンモデル(AAM)を用いて実施される。
  • AAMは、局所的な画像勾配に基づくテクスチャ誤差関数を最小化することで、統計的形状モデルを変形して唇領域に適合させる。
  • 局所化後、唇周辺の領域を抽出し、分類段階への一貫した入力が得られるように正規化する。
  • 正規化された唇領域から、局所的バイナリパターン(LBP)特徴量が抽出され、空間的テクスチャの変動を捉える。
  • LBP特徴量を10種類の事前に定義されたビゼムクラスに分類するため、サポートベクターマシン(SVM)が学習される。
  • システムは、制御された条件と制御されていない条件の両方を含む公開データセットを用いて評価され、耐障害性が検証される。

実験結果

リサーチクエスチョン

  • RQ1アクティブアパーニアンモデルは、照明や頭部の姿勢の変動がある多様な視覚的条件下でも、唇を効果的に局所化できるか?
  • RQ2局所化された唇領域から抽出されたLBP特徴量は、異なるビゼムをどれほど明確に区別できるか?
  • RQ3提案手法の分類精度は、標準的なビゼム認識ベンチマークでどの程度か?
  • RQ4実環境で制限のない記録条件において、システムはどの程度の性能を示すか?

主な発見

  • AAMを用いた唇局所化手法は、テストシーケンス全体で平均5ピクセル未満の局所化誤差を達成し、高い耐障害性を示した。
  • 制御された条件下では、ベンチマークデータセットで92.5%のビゼム分類精度を達成した。
  • 制限のない条件下では、性能が87.3%に低下し、背景の雑音や動きへの感受性が顕著に現れた。
  • LBP特徴量の使用により、生のピクセル強度や単純な色ベースの特徴量と比較して、分類精度が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。