QUICK REVIEW

[论文解读] SLTUNET: A Simple Unified Model for Sign Language Translation

Biao Zhang, Mathias Müller|arXiv (Cornell University)|May 2, 2023

Hand Gesture Recognition Systems被引用 14

一句话总结

SLTUnet 是一个统一的编码器-解码器模型，能够同时处理多种与手语翻译相关的任务（Sign2Gloss、Sign2Text、Gloss2Text），并利用机器翻译数据来提升手语翻译，在 PHOENIX-2014T 和 CSL-Daily 上达到具有竞争力或最先进的结果，并在更大规模的 DGS3-T 数据集上显示出提升。

ABSTRACT

Despite recent successes with neural models for sign language translation (SLT), translation quality still lags behind spoken languages because of the data scarcity and modality gap between sign video and text. To address both problems, we investigate strategies for cross-modality representation sharing for SLT. We propose SLTUNET, a simple unified neural model designed to support multiple SLTrelated tasks jointly, such as sign-to-gloss, gloss-to-text and sign-to-text translation. Jointly modeling different tasks endows SLTUNET with the capability to explore the cross-task relatedness that could help narrow the modality gap. In addition, this allows us to leverage the knowledge from external resources, such as abundant parallel data used for spoken-language machine translation (MT). We show in experiments that SLTUNET achieves competitive and even state-of-the-art performance on PHOENIX-2014T and CSL-Daily when augmented with MT data and equipped with a set of optimization techniques. We further use the DGS Corpus for end-to-end SLT for the first time. It covers broader domains with a significantly larger vocabulary, which is more challenging and which we consider to allow for a more realistic assessment of the current state of SLT than the former two. Still, SLTUNET obtains improved results on the DGS Corpus. Code is available at https://github.com/bzhangGo/sltunet.

研究动机与目标

激发并解决手语翻译中的数据稀缺和模态差距问题。
提出一个简单的统一模型（SLTUnet），在一个网络中支持多种与 SLT 相关的任务。
研究跨任务和跨模态的迁移，以提升 Sign2Text 的翻译效果。
在标准 SLT 基准和规模更大、更加真实的数据集上进行评估，以评估泛化能力。
探讨平衡模型容量与正则化的优化技术，以适用于 SLTUnet。

提出的方法

以 Transformer 为骨架的编码器-解码器架构。
分离的模态专用编码器（视觉/文本）和用于通用特征的共享编码器。
在输入中附加任务标签嵌入以引导生成（多任务，类似于多语言 MT）。
联合训练目标，结合 Sign2Gloss、Sign2Text、Gloss2Text 与机器翻译数据（等式4）。
在训练期间对手语编码器进行可选的 CTC 正则化（α · L_CTC），用于 Sign2Text。
基于消融实验启发的优化技术，包括模态专用建模、正则化和数据增强，以提高样本效率。

实验结果

研究问题

RQ1一个统一模型能否有效学习多种与 SLT 相关的任务并通过跨任务迁移提升 Sign2Text？
RQ2将 MT 数据和适当的正则化结合，是否使 SLTUnet 在标准 SLT 基准上超过任务特定基线？
RQ3模态专用参数与共享参数对 SLT 性能的影响是什么？
RQ4与传统 SLT 基准相比，SLTUnet 在更大规模、更具多样性的数据（DGS3-T）上的表现如何？
RQ5哪些优化选择在为 SLTUnet 平衡容量与正则化方面效果最好？

主要发现

SLTUnet 在 PHOENIX-2014T 和 CSL-Daily 上取得具有竞争力的甚至最先进的结果，尤其是在加入 MT 数据和优化技术时。
在 SLTUnet 内联合建模 Sign2Gloss、Sign2Text 和 Gloss2Text 会带来翻译收益，而添加 Text2Gloss 可能会降低性能。
引入 MT 数据带来额外收益，尽管提升有限；它有助于实现更大容量建模。
模态专用编码器加上共享骨干网络相比完全参数共享可提升 SLTUnet 的性能。
在较大的 DGS3-T 数据集上，SLTUnet 仍有改进，尽管端到端 SLT 仍具有挑战性，存在幻觉和手语数据高度变异性的问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。