Skip to main content
QUICK REVIEW

[论文解读] YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus

David Uthus, Garrett Tanzer|arXiv (Cornell University)|Jun 27, 2023
Hand Gesture Recognition Systems被引用 9
一句话总结

简介 YouTube-ASL,这是一个从 YouTube 挖掘的面向开放域的大规模 ASL-English 并行语料库,并在 How2Sign 上展示了零-shot 结果的最先进的 ASL-to-English 翻译性能。

ABSTRACT

Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.

研究动机与目标

  • 通过从网络数据创建一个大规模、多样化的 ASL-English 并行语料库,解决手语机器学习中的数据瓶颈。
  • 展示结合自动标注的开放域挖掘结合人工筛选能产出高质量的 ASL 字幕与说话者多样性。
  • 提供基线的 ASL-to-English 翻译结果以建立基准并展示零-shot 能力。

提出的方法

  • 两步数据收集:自动标注可能含有 ASL 的 YouTube 视频,然后进行人工筛选以确保字幕对齐和质量。
  • 预处理使用 MediaPipe Holistic 关键点(手、脸、有限姿态)作为输入特征;选取的 85 个关键点进行归一化并下采样以生成 255 维序列。
  • 基于 Transformer 的基线模型,构建在 T5 编码器-解码器架构之上;输入特征为编码器的关键点嵌入,使用 256 帧上下文窗口和 128 帧解码窗口。
  • 训练策略包括:仅从 How2Sign (H2S) 训练、仅使用 YouTube-ASL (YT-ASL) 进行零-shot 在 How2Sign 上、混合数据(YT-ASL + H2S)、以及先用 YouTube-ASL 再在 How2Sign 上微调。
  • 评估在 How2Sign 上使用 BLEU 和 BLEURT,采用束搜索(宽度 = 5);给出零-shot 和微调后的性能。

实验结果

研究问题

  • RQ1从 YouTube 挖掘的大规模开放域 ASL-English 语料是否可以改善 ASL-to-English 翻译基准?
  • RQ2对英语文本的预训练以及将 YouTube-ASL 数据与 How2Sign 数据混合对翻译质量有何影响?
  • RQ3在使用 YouTube-ASL 数据时,How2Sign 的零-shot 性能与微调后的性能有何比较?
  • RQ4YouTube-ASL 数据集在规模和说话者多样性方面是否比以往的 ASL 数据集有改进?

主要发现

  • YouTube-ASL 共有 11,093 段 ASL 视频,约 984 小时,带有 610,193 条英语字幕(总字幕 813 小时)以及 2519+ 个频道作为说话者代理。
  • 在 How2Sign 上微调得到最先进的结果:12.39 BLEU,超越此前 SOTA 8.03 BLEU。
  • 零-shot BLEU 为 3.95,展示了对非领域内翻译的非平凡能力。
  • 仅用 YouTube-ASL 训练的基线得分较低;在英语文本上进行预训练并在 How2Sign 上微调显著提升性能。
  • 将 YouTube-ASL 与 How2Sign 数据混合再进行微调可获得最佳结果(36.35 BLEU1,23.00 BLEU2,16.13 BLEU3,11.89 BLEURT;微调后的总 BLEU 为 12.39)。
  • YouTube-ASL 提供了显著的说话者多样性和真实世界领域覆盖,尽管翻译仍未达到可直接用于部署的质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。