Skip to main content
QUICK REVIEW

[论文解读] Sign Language Translation with Transformers.

Kayo Yin|arXiv (Cornell University)|Apr 1, 2020
Hand Gesture Recognition Systems参考文献 53被引用 13
一句话总结

该论文通过利用Transformer网络实现端到端的词位到文本翻译,并引入空间-时间多线索(STMC)网络以提升词位预测,从而改进手语翻译(SLT)性能。该方法在RWTH-PHOENIX-Weather 2014T和ASLG-PC12数据集上分别实现了超过5分和7分的BLEU-4分数提升,尤其在使用预测词位而非真实词位作为输入时,性能提升更为显著。

ABSTRACT

Sign Language Translation (SLT) first uses a Sign Language Recognition (SLR) system to extract sign language glosses from videos. Then, a translation system generates spoken language translations from the sign language glosses. Though SLT has gathered interest recently, little study has been performed on the translation system. This paper focuses on the translation system and improves performance by utilizing Transformer networks. We report a wide range of experimental results for various Transformer setups and introduce the use of Spatial-Temporal Multi-Cue (STMC) networks in an end-to-end SLT system with Transformer. We perform experiments on RWTH-PHOENIX-Weather 2014T, a challenging SLT benchmark dataset of German sign language, and ASLG-PC12, a dataset involving American Sign Language (ASL) recently used in gloss-to-text translation. Our methodology improves on the current state-of-the-art by over 5 and 7 points respectively in BLEU-4 score on ground truth glosses and by using an STMC network to predict glosses of the RWTH-PHOENIX-Weather 2014T dataset. On the ASLG-PC12 corpus, we report an improvement of over 16 points in BLEU-4. Our findings also demonstrate that end-to-end translation on predicted glosses provides even better performance than translation on ground truth glosses. This shows potential for further improvement in SLT by either jointly training the SLR and translation systems or by revising the gloss annotation system.

研究动机与目标

  • 提升手语翻译(SLT)系统中翻译模块的性能,该模块此前未受到充分关注。
  • 探究基于Transformer的架构在手语词位到文本翻译中的有效性。
  • 探索通过联合优化手语识别与翻译模块实现端到端训练的效果。
  • 评估使用预测词位而非真实词位作为输入是否能带来更好的翻译性能。

提出的方法

  • 采用Transformer网络作为端到端SLT系统中翻译头的核心架构。
  • 引入空间-时间多线索(STMC)网络,以提升从视频输入中预测手语词位的性能。
  • 采用端到端训练方式,联合优化手语识别与翻译模块。
  • 将STMC网络生成的预测词位序列作为输入,替代真实词位输入到Transformer翻译模型中。
  • 在Transformer中应用标准注意力机制,以建模词位序列中的长距离依赖关系。
  • 使用BLEU-4作为主要评估指标,在两个基准数据集(RWTH-PHOENIX-Weather 2014T和ASLG-PC12)上评估性能。

实验结果

研究问题

  • RQ1基于Transformer的模型能否显著提升手语词位到文本翻译的质量?
  • RQ2引入空间-时间多线索(STMC)网络是否能提升词位预测的准确性,并进而改善翻译性能?
  • RQ3对自动识别与翻译系统进行端到端联合训练,是否比使用真实词位作为输入更有效?
  • RQ4使用预测词位进行翻译是否优于使用真实词位进行翻译?

主要发现

  • 在使用真实词位作为输入时,所提出的基于Transformer的翻译系统在RWTH-PHOENIX-Weather 2014T数据集上的BLEU-4分数提升了超过5分。
  • 在同一数据集上,当使用STMC网络预测的词位作为输入时,BLEU-4分数提升超过7分。
  • 在ASLG-PC12数据集上,与先前的SOTA方法相比,该系统实现了超过16分的BLEU-4分数提升。
  • 基于预测词位的端到端翻译性能优于基于真实词位的翻译,表明通过联合训练可实现进一步性能提升。
  • 结果表明,优化词位标注流程或联合训练SLR与翻译模块,可显著提升整体SLT系统的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。