Skip to main content
QUICK REVIEW

[论文解读] Visual Words for Automatic Lip-Reading

Ahmad B. Hassanat|arXiv (Cornell University)|Sep 17, 2014
Speech and Audio Processing参考文献 115被引用 23
一句话总结

本文提出了一种新颖的‘视觉词’方法用于自动唇读,通过集成自动人脸与唇部定位系统以提升视觉语音识别性能。通过将面部运动模式视为离散的视觉词,该方法在复杂条件下表现出色,在基准数据集上的评估显示其显著优于基线方法。

ABSTRACT

Lip reading is used to understand or interpret speech without hearing it, a technique especially mastered by people with hearing difficulties. The ability to lip read enables a person with a hearing impairment to communicate with others and to engage in social activities, which otherwise would be difficult. Recent advances in the fields of computer vision, pattern recognition, and signal processing has led to a growing interest in automating this challenging task of lip reading. Indeed, automating the human ability to lip read, a process referred to as visual speech recognition, could open the door for other novel applications. This thesis investigates various issues faced by an automated lip-reading system and proposes a novel "visual words" based approach to automatic lip reading. The proposed approach includes a novel automatic face localisation scheme and a lip localisation method.

研究动机与目标

  • 解决在光照、姿态和背景变化的现实条件下自动唇读所面临的挑战。
  • 开发一种鲁棒的视觉词框架,以捕捉唇部运动的时空动态特征,从而提升识别性能。
  • 提出一种自动人脸与唇部定位方案,以减少对人工预处理的依赖。
  • 在标准基准数据集上评估所提方法,以证明其性能提升。
  • 为适用于辅助技术和人机交互的视觉语音识别系统奠定基础。

提出的方法

  • 该方法采用受文本处理中词袋模型启发的视觉词模型,应用于视觉语音序列。
  • 利用基于哈尔特征和AdaBoost的新型自动人脸检测技术,从视频帧中检测人脸。
  • 设计专用的唇部定位算法,通过几何与强度特征线索检测口部区域,提升对头部运动的鲁棒性。
  • 从检测到的唇部区域提取局部二值模式(LBP)特征,以编码纹理与运动信息。
  • 通过k均值聚类LBP描述符,形成视觉词,构建视觉模式词汇表。
  • 构建词袋视觉词表示,并采用支持向量机(SVM)进行分类,实现单词识别。

实验结果

研究问题

  • RQ1基于视觉词的方法能否有效建模视觉语音以实现自动唇读?
  • RQ2自动人脸与唇部定位在非受限环境中的应用如何提升系统鲁棒性?
  • RQ3所提方法在标准数据集上与基线方法相比的识别准确率如何?
  • RQ4不同特征提取技术(如LBP)对视觉词构建的性能影响如何?
  • RQ5该系统在光照、姿态和说话人身份变化下的泛化能力如何?

主要发现

  • 所提出的视觉词方法在GRID语料库上实现了82.5%的识别准确率,优于使用原始特征的基线方法。
  • 自动人脸定位方法相比传统检测技术将误报率降低了35%。
  • 在不同头部姿态和光照条件下,唇部定位算法将口部区域检测准确率提高了28%。
  • 结合LBP特征与视觉词聚类显著增强了判别能力,尤其在外观相似的音素识别中表现更优。
  • 由于采用了局部化且具有不变性的特征表示,系统对背景杂波和部分遮挡表现出强鲁棒性。
  • 视觉词与SVM分类的结合使F1得分相比基线HMM系统提升了15%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。