Skip to main content
QUICK REVIEW

[论文解读] SF-Net: Structured Feature Network for Continuous Sign Language Recognition

Zhaoyang Yang, Zhenmei Shi|arXiv (Cornell University)|Aug 4, 2019
Hand Gesture Recognition Systems参考文献 38被引用 49
一句话总结

SF-Net 在一个结构化的端到端框架中学习帧、词素(gloss)和句子层面的特征,以在没有帧级监督的情况下提升连续手语识别。它在 CSL 和 RWTH-PHOENIX 数据集上实现了最先进的结果。

ABSTRACT

Continuous sign language recognition (SLR) aims to translate a signing sequence into a sentence. It is very challenging as sign language is rich in vocabulary, while many among them contain similar gestures and motions. Moreover, it is weakly supervised as the alignment of signing glosses is not available. In this paper, we propose Structured Feature Network (SF-Net) to address these challenges by effectively learn multiple levels of semantic information in the data. The proposed SF-Net extracts features in a structured manner and gradually encodes information at the frame level, the gloss level and the sentence level into the feature representation. The proposed SF-Net can be trained end-to-end without the help of other models or pre-training. We tested the proposed SF-Net on two large scale public SLR datasets collected from different continuous SLR scenarios. Results show that the proposed SF-Net clearly outperforms previous sequence level supervision based methods in terms of both accuracy and adaptability.

研究动机与目标

  • 解决弱监督的连续 SLR,其中缺乏词素对齐。
  • 通过在帧、词素和句子层面结构化特征学习,捕捉多层语义信息。
  • 实现无额外预训练或辅助模型的端到端训练。
  • 在具有不同签名场景的数据集上提升识别精度和适应性。

提出的方法

  • 使用二维/三维卷积框架提取帧级特征,通过求和2D和3D分支实现残差时间学习。
  • 引入词素级框架操作以创建元帧,并使用 LSTM 建立元帧内的时间依赖性。
  • 应用基于 Kullback–Leibler 散度的词素级正则化以对齐词素和句子层面的分布。
  • 用对词素层特征的 Bi-LSTM 建模句子级上下文,并以 CTC 损失优化。
  • 在测试时使用贪婪解码器从句子级预测中获得最终的词素序列。

实验结果

研究问题

  • RQ1多层次(帧、词素、句子)特征学习架构是否能够在没有帧级监督的情况下改进连续 SLR?
  • RQ2将三维卷积和词素级框架纳入是否能在不同数据集上改善对齐和识别精度?
  • RQ3词素级正则化及其引入时机对训练稳定性和最终性能的影响?
  • RQ4与以往的句子级监督方法相比,SF-Net 在大规模 CSL 和 RWTH-PHOENIX-Weather-2014 数据集上的表现如何?

主要发现

  • SF-Net 在 CSL 和 RWTH-PHOENIX-Weather-2014 数据集上超越了先前基于句子级监督的方法。
  • 纳入 3D 卷积分支在词级 CSL 准确度和句子级 RWTH-WER 上均带来显著提升。
  • 带 LSTM 的词素级框架显著改善对齐并相较于仅帧级的方法减少了解码错误。
  • 在适当的训练阶段引入词素级正则化可以提升在词汇更丰富的 RWTH 数据集上的性能。
  • SF-Net 在 CSL(未预训练:4.8,带预训练:3.8 WER)和 RWTH(未预训练:38.1–40.8 WER,依设置而定;经过预训练有所改善)上达到了最先进的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。