QUICK REVIEW

[论文解读] Lipreading with Long Short-Term Memory

Michael Wand, Jan Koutník|arXiv (Cornell University)|Jan 29, 2016

Speech and Audio Processing参考文献 23被引用 37

一句话总结

本文提出了一种基于深度神经网络的端到端唇读系统，结合前馈网络与长短期记忆（LSTM）层，从原始嘴部图像中直接分类语音单词，无需人工特征提取。该模型在GRID语料库上实现了79.6%的单词准确率，较最佳传统方法高出11.6%，证明了在视觉语音识别中联合特征学习与序列建模的优势。

ABSTRACT

Lipreading, i.e. speech recognition from visual-only recordings of a speaker's face, can be achieved with a processing pipeline based solely on neural networks, yielding significantly better accuracy than conventional methods. Feed-forward and recurrent neural network layers (namely Long Short-Term Memory; LSTM) are stacked to form a single structure which is trained by back-propagating error gradients through all the layers. The performance of such a stacked network was experimentally evaluated and compared to a standard Support Vector Machine classifier using conventional computer vision features (Eigenlips and Histograms of Oriented Gradients). The evaluation was performed on data from 19 speakers of the publicly available GRID corpus. With 51 different words to classify, we report a best word accuracy on held-out evaluation speakers of 79.6% using the end-to-end neural network-based solution (11.6% improvement over the best feature-based solution evaluated).

研究动机与目标

开发一种基于神经网络的唇读系统，避免人工特征提取，而是从原始嘴部图像中端到端学习特征。
评估基于LSTM的序列分类器在视觉语音识别中的性能，并与使用手工特征的传统流程进行比较。
确定循环神经网络（特别是LSTM）是否能有效建模唇部运动的时间动态，以提升单词分类性能。
评估网络架构（特别是前馈层与LSTM层）在说话人特定设置下对识别准确率的影响。

提出的方法

该模型采用堆叠结构，包含一个全连接前馈层，后接两个LSTM层（每层128个单元），最后以一个Softmax输出层完成51类单词分类。
输入数据为从每秒25帧的视频帧中提取的40×40像素灰度嘴部区域图像，未进行任何预处理或人工特征工程。
通过时间反向传播进行训练，学习率为0.02，并采用延迟10个周期的早停策略以防止过拟合。
权重在[-0.05, 0.05]范围内均匀初始化，优化过程中未使用动量。
在GRID语料库上评估系统，使用19名说话人（10名用于训练，10名用于评估），在保留的说话人上测量单词级准确率。
作为对比，采用HOG与Eigenlip特征并使用SVM分类器的传统流程在相同条件下进行评估。

实验结果

研究问题

RQ1基于LSTM层的端到端深度神经网络是否能优于依赖手工视觉特征的传统唇读系统？
RQ2当使用相同输入特征时，基于LSTM的序列模型与传统SVM分类器的性能相比如何？
RQ3使用原始像素数据与工程化特征（如HOG、Eigenlips）对唇读准确率有何影响？
RQ4为何单字母单词的识别准确率特别低？时间动态因素如何影响性能？

主要发现

基于LSTM的唇读系统在保留的评估说话人上实现了79.6%的单词级准确率，较最佳传统方法（HOG + SVM）高出11.6%。
混淆矩阵显示，字母的准确率显著较低（69.8%），而较长单词的准确率较高（93.4%），表明短时长和视觉相似的字母是主要错误来源。
在说话人7上，系统总准确率达到82.0%，非字母单词表现最佳，字母单词表现最差，该趋势在所有说话人中保持一致。
使用未经人工特征提取的原始图像输入带来了更优性能，表明端到端学习能捕捉比手工特征更具判别性的时空模式。
将前馈层替换为卷积神经网络（CNN）的实验未提升性能，可能是因为40×40的输入尺寸已包含足够信息用于分类。
结果表明，字母序列持续时间有限（3–4帧）以及音素如'p'与'b'之间视觉相似度过高，是识别失败的关键因素。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。