[论文解读] YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus
简介 YouTube-ASL,这是一个从 YouTube 挖掘的面向开放域的大规模 ASL-English 并行语料库,并在 How2Sign 上展示了零-shot 结果的最先进的 ASL-to-English 翻译性能。
Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.
研究动机与目标
- 通过从网络数据创建一个大规模、多样化的 ASL-English 并行语料库,解决手语机器学习中的数据瓶颈。
- 展示结合自动标注的开放域挖掘结合人工筛选能产出高质量的 ASL 字幕与说话者多样性。
- 提供基线的 ASL-to-English 翻译结果以建立基准并展示零-shot 能力。
提出的方法
- 两步数据收集:自动标注可能含有 ASL 的 YouTube 视频,然后进行人工筛选以确保字幕对齐和质量。
- 预处理使用 MediaPipe Holistic 关键点(手、脸、有限姿态)作为输入特征;选取的 85 个关键点进行归一化并下采样以生成 255 维序列。
- 基于 Transformer 的基线模型,构建在 T5 编码器-解码器架构之上;输入特征为编码器的关键点嵌入,使用 256 帧上下文窗口和 128 帧解码窗口。
- 训练策略包括:仅从 How2Sign (H2S) 训练、仅使用 YouTube-ASL (YT-ASL) 进行零-shot 在 How2Sign 上、混合数据(YT-ASL + H2S)、以及先用 YouTube-ASL 再在 How2Sign 上微调。
- 评估在 How2Sign 上使用 BLEU 和 BLEURT,采用束搜索(宽度 = 5);给出零-shot 和微调后的性能。
实验结果
研究问题
- RQ1从 YouTube 挖掘的大规模开放域 ASL-English 语料是否可以改善 ASL-to-English 翻译基准?
- RQ2对英语文本的预训练以及将 YouTube-ASL 数据与 How2Sign 数据混合对翻译质量有何影响?
- RQ3在使用 YouTube-ASL 数据时,How2Sign 的零-shot 性能与微调后的性能有何比较?
- RQ4YouTube-ASL 数据集在规模和说话者多样性方面是否比以往的 ASL 数据集有改进?
主要发现
- YouTube-ASL 共有 11,093 段 ASL 视频,约 984 小时,带有 610,193 条英语字幕(总字幕 813 小时)以及 2519+ 个频道作为说话者代理。
- 在 How2Sign 上微调得到最先进的结果:12.39 BLEU,超越此前 SOTA 8.03 BLEU。
- 零-shot BLEU 为 3.95,展示了对非领域内翻译的非平凡能力。
- 仅用 YouTube-ASL 训练的基线得分较低;在英语文本上进行预训练并在 How2Sign 上微调显著提升性能。
- 将 YouTube-ASL 与 How2Sign 数据混合再进行微调可获得最佳结果(36.35 BLEU1,23.00 BLEU2,16.13 BLEU3,11.89 BLEURT;微调后的总 BLEU 为 12.39)。
- YouTube-ASL 提供了显著的说话者多样性和真实世界领域覆盖,尽管翻译仍未达到可直接用于部署的质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。