Skip to main content
QUICK REVIEW

[论文解读] Video-based Sign Language Recognition without Temporal Segmentation

Jie Huang, Wengang Zhou|arXiv (Cornell University)|Jan 30, 2018
Hand Gesture Recognition Systems参考文献 33被引用 43
一句话总结

本文提出 LS-HAN,一种连续手语识别框架,通过使用双流三维卷积神经网络来获取全局-局部视频特征,并在层次注意网络的潜在空间中将视频帧与句子词对齐,从而消除时序分割。

ABSTRACT

Millions of hearing impaired people around the world routinely use some variants of sign languages to communicate, thus the automatic translation of a sign language is meaningful and important. Currently, there are two sub-problems in Sign Language Recognition (SLR), i.e., isolated SLR that recognizes word by word and continuous SLR that translates entire sentences. Existing continuous SLR methods typically utilize isolated SLRs as building blocks, with an extra layer of preprocessing (temporal segmentation) and another layer of post-processing (sentence synthesis). Unfortunately, temporal segmentation itself is non-trivial and inevitably propagates errors into subsequent steps. Worse still, isolated SLR methods typically require strenuous labeling of each word separately in a sentence, severely limiting the amount of attainable training data. To address these challenges, we propose a novel continuous sign recognition framework, the Hierarchical Attention Network with Latent Space (LS-HAN), which eliminates the preprocessing of temporal segmentation. The proposed LS-HAN consists of three components: a two-stream Convolutional Neural Network (CNN) for video feature representation generation, a Latent Space (LS) for semantic gap bridging, and a Hierarchical Attention Network (HAN) for latent space based recognition. Experiments are carried out on two large scale datasets. Experimental results demonstrate the effectiveness of the proposed framework.

研究动机与目标

  • 促使减少连续 SLR 中易出错的时序分割。
  • 开发一个直接将视频映射到句子级表示的统一框架。
  • 利用潜在空间来桥接视觉与文本模态。
  • 展示在大型 CSL 和 RWTH-PHOENIX-Weather 数据集上的可扩展性。

提出的方法

  • 提出一个双流三维卷积神经网络以捕获全局运动和局部手势,作为 4096 维剪辑特征。
  • 引入一个潜在空间,利用线性映射(T_v 和 T_s)将视频特征和句子表示投射到同一空间。
  • 在潜在空间中使用带有窗口约束的动态时间规整(DTW)来衡量视频-句子相关性(E_r)。
  • 应用分层注意力网络(HAN)从潜在空间表示中生成句子,实现端到端的句子识别(E_c)。
  • 在统一目标(方程式9)中联合优化 E_r 和 E_c,并进行正则化。
  • 训练使用时间反向传播和普通梯度方法来更新 T_v、T_s 和 HAN 参数。

实验结果

研究问题

  • RQ1在不进行时序分割的情况下,连续手语识别是否仍能保持高准确度?
  • RQ2将视频与句子表示桥接的潜在空间是否比仅使用标准 HAN 提高识别鲁棒性?
  • RQ3捕捉全局与局部线索的双流CNN如何影响手语识别性能?
  • RQ4在 LS-HAN 中联合优化视频-句子相关性与句子识别的影响是什么?
  • RQ5相较于现有方法,LS-HAN 在大型 CSL 和 RWTH-PHOENIX-Weather 数据集上的表现如何?

主要发现

  • LS-HAN 在 CSL 数据集上比若干基线方法具有更高的准确率(一个变体为 0.827)。
  • 在 CSL 上,LS-HAN 相较于依赖时序分割的方法(如 CRF、LDCRF、DTW-HMM)取得了显著的优势。
  • 在 RWTH-PHOENIX-Weather 上,结合手部序列的 LS-HAN 达到 0.617 的准确率,超越一些深度手部和循环 CNN 的基线。
  • 对 HAN 派生输出与潜在空间 DTW 距离的比较显示出总体对齐的趋势,支持视频-句子相关性建模。
  • 敏感性分析表明 lambda_1 的最佳取值在约 0.6,用于在相关性损失与连贯性损失之间权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。