QUICK REVIEW

[论文解读] Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation

Ryan Wong, Necati Cihan Camgöz|arXiv (Cornell University)|May 7, 2024

Hand Gesture Recognition Systems被引用 5

一句话总结

Sign2GPT 使用冻结的视觉和语言模型，配合轻量级适配器和伪-gloss 预训练策略，实现 gloss-free 手语翻译，在 Phoenix14T 和 CSL-Daily 上优于先前的 gloss-free 方法。

ABSTRACT

Automatic Sign Language Translation requires the integration of both computer vision and natural language processing to effectively bridge the communication gap between sign and spoken languages. However, the deficiency in large-scale training data to support sign language translation means we need to leverage resources from spoken language. We introduce, Sign2GPT, a novel framework for sign language translation that utilizes large-scale pretrained vision and language models via lightweight adapters for gloss-free sign language translation. The lightweight adapters are crucial for sign language translation, due to the constraints imposed by limited dataset sizes and the computational requirements when training with long sign videos. We also propose a novel pretraining strategy that directs our encoder to learn sign representations from automatically extracted pseudo-glosses without requiring gloss order information or annotations. We evaluate our approach on two public benchmark sign language translation datasets, namely RWTH-PHOENIX-Weather 2014T and CSL-Daily, and improve on state-of-the-art gloss-free translation performance with a significant margin.

研究动机与目标

在低资源设置下解决无 gloss 手语翻译的挑战。
通过适配器利用大规模预训练的视觉和语言模型，避免对大模型进行微调。
开发基于伪-gloss 的预训练策略，以在无 gloss 注释的情况下初始化手语编码器。
实现从手语视频到口语/书面语言的端到端视频到文本翻译。
在公开基准数据集（Phoenix14T 和 CSL-Daily）上展示最新性能。

提出的方法

采用冻结的视觉骨干（Dino-V2 ViT）并配合 LoRA 适配器进行内存高效微调。
使用时空变换器作为手语编码器，具备时序下采样和局部自注意力。
使用冻结的 XGLM GPT 解码器，具备零门控跨模态注意力和 LoRA 的跨模态融合。
通过线性层将手语编码器输出映射到解码器维度，并通过门控跨注意力进行融合。
利用伪-gloss 监督对手语编码器进行预训练，通过将手语特征对齐到从 fastText Embeddings 初始化的原型，使用余弦相似度和温度缩放的 softmax 将伪 gloss 局部化。
下游训练使用交叉熵损失和标签平滑；推理阶段使用束搜索。

实验结果

研究问题

RQ1是否可以通过冻结大规模预训练的视觉和语言模型、仅对轻量级的手语编码器进行适配来实现无 gloss 手语翻译？
RQ2伪-gloss 预训练策略在没有 gloss 注释或 gloss 顺序信息的情况下，是否能提供有意义的手语表示？
RQ3基于适配器的微调和局部注意力在处理长手语视频时能否提高翻译质量？
RQ4与现有方法相比，Sign2GPT 在无 gloss 的 SLT 标准基准上的表现如何？
RQ5时间下采样和正弦位置编码对翻译性能有何影响？

主要发现

在 Phoenix14T 的无 gloss SLT 指标上，使用伪-gloss 预训练的 Sign2GPT 相较于先前方法显著提升（BLEU-4 增幅约 1.1，使用 PGP），在 CSL-Daily 上提升约 4.4（BLEU-4，使用 PGP）。
在未进行预训练的情况下， gloss-free 的结果仍具竞争力，缩小与基于 gloss 的 SLT 的差距。
预训练的收益源于通过伪-gloss 学习词级手语表示，使冻结的视觉和语言模型得以有效利用。
时序下采样和局部注意力在不显著损失性能的情况下降低内存需求并提高效率。
在使用伪-gloss 预训练时，正弦位置嵌入显著提升 BLEU-4。
该方法在参数效率方面表现良好，大多数可训练参数集中在手语编码器。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。