[论文解读] Real-time Sign Language Fingerspelling Recognition using Convolutional Neural Networks from Depth map
本论文提出了一种基于卷积神经网络(CNNs)的实时手语指拼识别系统,通过在深度图上进行训练,实现了高精度与高速度。该系统对31个字母与数字进行分类,在已见手语者上的准确率达到99.99%,在未见手语者上的准确率为83.58%–85.49%,图像处理时间仅需3毫秒,是目前仅使用深度数据实现该任务的最高准确率与最快系统。
Sign language recognition is important for natural and convenient communication between deaf community and hearing majority. We take the highly efficient initial step of automatic fingerspelling recognition system using convolutional neural networks (CNNs) from depth maps. In this work, we consider relatively larger number of classes compared with the previous literature. We train CNNs for the classification of 31 alphabets and numbers using a subset of collected depth data from multiple subjects. While using different learning configurations, such as hyper-parameter selection with and without validation, we achieve 99.99% accuracy for observed signers and 83.58% to 85.49% accuracy for new signers. The result shows that accuracy improves as we include more data from different subjects during training. The processing time is 3 ms for the prediction of a single image. To the best of our knowledge, the system achieves the highest accuracy and speed. The trained model and dataset is available on our repository.
研究动机与目标
- 开发一种实时、高精度的美国手语(ASL)自动指拼识别系统,以改善聋人与听力正常者之间的交流。
- 通过使用深度数据解决手语视觉相似性问题,特别是仅在拇指位置上存在差异的手势,从而提升鲁棒性。
- 通过将分类类别扩展至31类(26个字母与10个数字)而非通常的24类,扩展先前工作的实用价值。
- 通过在多个受试者上训练并在未见受试者上测试,评估模型在不同手语者之间的泛化能力。
- 通过仅使用深度图而非彩色图像和校准,消除对光照条件与肤色差异的依赖,提升系统在不同环境下的稳定性。
提出的方法
- 在来自多个受试者的深度图上训练深层CNN,以分类31种静态指拼手势(A–Z,0–9)。
- 通过在ImageNet(ILSVRC2012)上进行预训练,并在基于深度图的指拼数据集上进行微调,实现迁移学习。
- 采用数据增强与基于受试者分离的交叉验证(训练、验证、测试),以确保对新手语者的泛化能力。
- 实施重新训练与微调两种策略,以比较不同训练配置下的性能提升。
- 通过有与无验证的超参数优化,评估其对模型泛化能力与准确率的影响。
- 采用单帧推理流水线与轻量化CNN架构,在GPU上实现每张图像3毫秒的实时性能。
实验结果
研究问题
- RQ1仅在深度图上进行训练的CNN系统能否在识别31种静态ASL指拼手势方面实现高准确率?
- RQ2当在未包含在训练集中的手语者上进行测试时,模型性能如何变化?哪些因素能提升泛化能力?
- RQ3与重新训练相比,从ImageNet预训练模型进行微调是否能提升在基于深度图的指拼识别任务上的性能?
- RQ4增加训练受试者数量如何影响对新手语者的识别准确率?
- RQ5仅使用深度图输入能否消除对彩色图像校准的依赖,并提升对光照与肤色差异的鲁棒性?
主要发现
- 当在相同受试者上进行训练与测试时,系统在已见手语者上的准确率高达99.99%,表明其在训练分布上的卓越性能。
- 对于新受试者,通过微调实现的准确率为83.58%至85.49%,相比重新训练提升了7–8%,显示出显著改进。
- 当训练受试者数量从三个增加到四个时,准确率提升了2–3%,表明更多样化的数据有助于提升泛化能力。
- 模型在Nvidia GeForce GTX Titan上每张深度图的处理时间仅为3毫秒,支持实时推理。
- 该系统优于以往最先进的方法,尤其在处理更多类别(31类)及对未见手语者的泛化能力方面表现更优。
- 表现最差的字母(E、M、N、T)因拇指位置的细微差异而持续难以区分,证实了数据集中长期存在的视觉模糊性问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。