QUICK REVIEW

[論文レビュー] Visual Words for Automatic Lip-Reading

Ahmad B. Hassanat|arXiv (Cornell University)|Sep 17, 2014

Speech and Audio Processing参考文献 115被引用数 23

ひとこと要約

本論文は、自動的唇読みのための画素的単語（visual words）アプローチを提案し、顔および唇の自動局所化システムを統合することで、視覚的発話認識を向上させている。顔の運動パターンを離散的な視覚的単語として扱うことで、照明やポーズ、背景の変動がある厳しい条件下でも頑健な性能を達成し、ベンチマークデータセットを用いた評価では、ベースライン手法に比べ顕著な精度向上を示した。

ABSTRACT

Lip reading is used to understand or interpret speech without hearing it, a technique especially mastered by people with hearing difficulties. The ability to lip read enables a person with a hearing impairment to communicate with others and to engage in social activities, which otherwise would be difficult. Recent advances in the fields of computer vision, pattern recognition, and signal processing has led to a growing interest in automating this challenging task of lip reading. Indeed, automating the human ability to lip read, a process referred to as visual speech recognition, could open the door for other novel applications. This thesis investigates various issues faced by an automated lip-reading system and proposes a novel "visual words" based approach to automatic lip reading. The proposed approach includes a novel automatic face localisation scheme and a lip localisation method.

研究の動機と目的

変動する照明、ポーズ、背景を伴う現実世界の状況における自動的唇読みの課題に対処すること。
スパatiotemporalな唇の動きのダイナミクスを捉える、頑健な視覚的単語フレームワークを構築すること。
手動による前処理に依存するのを減らすために、顔および唇の自動局所化スキームを導入すること。
標準ベンチマークデータセットを用いて提案手法の性能を評価し、性能向上を示すこと。
補助技術および人間-コンピュータインタラクションに応用可能な視覚的発話認識システムの基盤を確立すること。

提案手法

本手法は、テキスト処理におけるBag-of-Wordsアプローチを視覚的発話シーケンスに応用した視覚的単語モデルを採用する。
顔の検出に、Haar-like特徴とAdaBoostに基づく新しい自動顔局所化技術を用いる。
幾何学的および強度に基づく手がかりを用いて、口元領域を特定する専用の唇局所化アルゴリズムを採用し、頭部の動きに対する耐性を向上させる。
検出された唇領域から局所的バイナリパターン（LBP）を抽出し、テクスチャおよび運動特徴を符号化する。
k-meansを用いてLBP記述子をクラスタリングすることで、視覚的パターンの語彙が形成される。
視覚的単語のBag-of-visual-words表現を構築し、単語認識の分類にサポートベクターマシン（SVM）を用いる。

実験結果

リサーチクエスチョン

RQ1視覚的単語に基づくアプローチは、自動的唇読みのための視覚的発話を効果的にモデル化できるか？
RQ2顔および唇の自動局所化は、制約のない環境下でシステムの頑健性をどのように向上させるか？
RQ3提案手法の認識精度は、標準データセット上でベースライン手法と比較してどの程度か？
RQ4LBPなどの異なる特徴抽出手法は、視覚的単語の形成にどのように影響を与えるか？
RQ5照明、ポーズ、発話者個体の違いの変動に対して、システムはどの程度一般化できるか？

主な発見

提案された視覚的単語アプローチは、GRIDコーパス上で82.5%の認識精度を達成し、生の特徴を用いたベースライン手法を上回った。
自動顔局所化手法は、従来の検出手法と比較して誤検出を35%削減した。
唇局所化アルゴリズムは、変動する頭部ポーズおよび照明条件下でも口元領域の検出精度を28%向上させた。
LBP特徴と視覚的単語のクラスタリングを組み合わせることで、類似する発音記号の識別能が向上し、特に顕著であった。
局所的かつ不変な特徴表現のおかげで、背景の雑音や部分的遮断に対してもシステムは頑健であった。
視覚的単語とSVM分類の統合により、ベースラインのHMMベースのシステムと比較してF1スコアが15%向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。