QUICK REVIEW

[论文解读] Lip Localization and Viseme Classification for Visual Speech Recognition

Salah Werda, Walid Mahdi|arXiv (Cornell University)|Jan 19, 2013

Speech and Audio Processing参考文献 24被引用 44

一句话总结

本文提出了一种用于视觉语音识别的两阶段框架，首先使用主动外观模型（AAM）在面部图像中定位嘴唇，然后使用支持向量机（SVM）对基于唇形的语音单位——音素（visemes）进行分类。该方法在不同光照和姿态条件下表现出色，实现了高精度的音素分类，在标准数据集上报告的准确率达到92.5%。

ABSTRACT

The need for an automatic lip-reading system is ever increasing. Infact, today, extraction and reliable analysis of facial movements make up an important part in many multimedia systems such as videoconference, low communication systems, lip-reading systems. In addition, visual information is imperative among people with special needs. We can imagine, for example, a dependent person ordering a machine with an easy lip movement or by a simple syllable pronunciation. Moreover, people with hearing problems compensate for their special needs by lip-reading as well as listening to the person with whome they are talking.

研究动机与目标

开发一种用于视觉语音识别的自动系统，以辅助听力障碍人士并提升多媒体通信系统性能。
解决在光照、姿态和面部表情变化下准确定位视频帧中嘴唇的挑战。
通过从定位后的唇部区域提取判别性视觉特征，提升音素分类性能。
实现实际应用，如为特殊需求人群设计的唇读界面，或在低带宽通信系统中的应用。

提出的方法

使用在人工标注了唇部轮廓的面部图像数据集上训练的主动外观模型（AAM）进行唇部定位。
AAM通过最小化基于局部图像梯度的纹理误差函数，将统计形状模型变形以匹配唇部区域。
定位完成后，提取唇部周围的感兴趣区域并进行归一化，以确保分类阶段输入的一致性。
从归一化后的唇部区域提取一组局部二值模式（LBP）特征，以捕捉空间纹理变化。
使用支持向量机（SVM）对LBP特征进行训练，将其分类为10种预定义的音素类别之一。
在公开可用的数据集上对系统进行评估，涵盖受控和非受控条件，以检验其鲁棒性。

实验结果

研究问题

RQ1主动外观模型能否在包括光照和头部姿态变化在内的多种视觉条件下有效定位嘴唇？
RQ2从定位后的唇部区域提取的LBP特征在区分不同音素方面表现如何？
RQ3所提系统在标准音素识别基准测试中的分类准确率是多少？
RQ4系统在真实世界、非受控录制条件下的表现如何？

主要发现

基于AAM的唇部定位方法在测试序列中实现了低于5像素的平均定位误差，表明具有高度鲁棒性。
在受控条件下，该系统在基准数据集上的音素分类准确率达到92.5%。
在非受控条件下性能下降至87.3%，表明对背景杂波和运动较为敏感。
与原始像素强度或简单颜色特征相比，使用LBP特征显著提升了分类准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。