[论文解读] MS-ASL: A Large-Scale Data Set and Benchmark for Understanding American Sign Language
本文介绍 MS-ASL,第一个具有 222 位签名人和 1000 个 gloss signs 的大规模 ASL 数据集,并以 2D/3D CNN、身体关键点流和 I3D 建立基线,结果显示 I3D 表现最强。它还分析了类别数量和样本量对识别准确率的影响。
Sign language recognition is a challenging and often underestimated problem comprising multi-modal articulators (handshape, orientation, movement, upper body and face) that integrate asynchronously on multiple streams. Learning powerful statistical models in such a scenario requires much data, particularly to apply recent advances of the field. However, labeled data is a scarce resource for sign language due to the enormous cost of transcribing these unwritten languages. We propose the first real-life large-scale sign language data set comprising over 25,000 annotated videos, which we thoroughly evaluate with state-of-the-art methods from sign and related action recognition. Unlike the current state-of-the-art, the data set allows to investigate the generalization to unseen individuals (signer-independent test) in a realistic setting with over 200 signers. Previous work mostly deals with limited vocabulary tasks, while here, we cover a large class count of 1000 signs in challenging and unconstrained real-life recording conditions. We further propose I3D, known from video classifications, as a powerful and suitable architecture for sign language recognition, outperforming the current state-of-the-art by a large margin. The data set is publicly available to the community.
研究动机与目标
- 创建一个大规模、 signer-independent 的 ASL 数据集,以便在非受限、现实录音上进行深度学习。
- 提供跨多种架构的基线,以仅使用 RGB 视频进行 ASL 识别。
- 展示 I3D 在多样化、大词汇量数据集上的手语识别的有效性。
- 分析类别数量和每类样本数量对识别性能的影响。
提出的方法
- 从公开可用的 ASL 视频中组装一个大规模的 ASL 数据集(MS-ASL),通过自动和手动标注生成 222 签名者、1000 个 gloss signs。
- 在固定帧窗口下,评估涵盖 2D-CNN+LSTM、身体关键点流和 3D-CNN 架构的基线,使用 RGB 输入。
- 采用 I3D(inflated 3D ConvNet)作为强基线,并与现有最先进方法进行比较。
- 通过设计在训练/验证/测试集中具有不同签名者的分割来实现说手者独立性。
- 提供在 MS-ASL 上进行过域内预训练的 I3D 模型,供未来研究使用。
实验结果
研究问题
- RQ1一个具有 1000 个符号、签名者无关的大规模数据集是否能在非受限的真实视频上实现有效的基于深度学习的识别?
- RQ2哪些架构(2D-CNN+LSTM、身体关键点、3D-CNN、I3D)在 MS-ASL 上提供最强的基线性能?
- RQ3增加类别数量和每类样本数量如何影响识别准确率?
- RQ4在 ASL 识别中,使用在 MS-ASL 上训练的预训练模型与在域外的预训练相比,有什么影响?
主要发现
- I3D 在所有子集上具有最强的每类别准确率,例如在 ASL1000 上为 81.08%,在 ASL1000 的 top-5 准确率为 57.69%。
- 基于身体关键点的 HCN 相较于 2D-CNN 基线有所提升,但仍落后于 I3D,表明手部/手指表示还有提升空间。
- 2D-CNN 基线在此数据集表现不佳,因为缺乏单帧上下文且变异性高。
- 在 MS-ASL 上进行的域内预训练显著提升了性能(例如在 I3D 上,当在 ASL200 上进行预训练时每类别准确率达到 85.32%,相比在 ASL100 训练时的 83.36%)。
- 增加类别数量会降低训练和测试的准确率,但每类样本更丰富可缓解下降;当数据量更多时影响较小。
- 每类样本越多,准确率越高,对样本数少于约 40 的类别尤其有显著提升;超过这个数量,手语歧义也会影响表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。