[论文解读] Skeleton Aware Multi-modal Sign Language Recognition
SAM-SLR 将全身骨架图与 SSTCN 以及多模态 RGB/RGB-D 流整合,在 AUTSL 上实现最先进的手语识别,在 CVPR-21 挑战 RGB 和 RGB-D 路线中排名第一。
Sign language is commonly used by deaf or speech impaired people to communicate but requires significant effort to master. Sign Language Recognition (SLR) aims to bridge the gap between sign language users and others by recognizing signs from given videos. It is an essential yet challenging task since sign language is performed with the fast and complex movement of hand gestures, body posture, and even facial expressions. Recently, skeleton-based action recognition attracts increasing attention due to the independence between the subject and background variation. However, skeleton-based SLR is still under exploration due to the lack of annotations on hand keypoints. Some efforts have been made to use hand detectors with pose estimators to extract hand key points and learn to recognize sign language via Neural Networks, but none of them outperforms RGB-based methods. To this end, we propose a novel Skeleton Aware Multi-modal SLR framework (SAM-SLR) to take advantage of multi-modal information towards a higher recognition rate. Specifically, we propose a Sign Language Graph Convolution Network (SL-GCN) to model the embedded dynamics and a novel Separable Spatial-Temporal Convolution Network (SSTCN) to exploit skeleton features. RGB and depth modalities are also incorporated and assembled into our framework to provide global information that is complementary to the skeleton-based methods SL-GCN and SSTCN. As a result, SAM-SLR achieves the highest performance in both RGB (98.42\%) and RGB-D (98.53\%) tracks in 2021 Looking at People Large Scale Signer Independent Isolated SLR Challenge. Our code is available at https://github.com/jackyjsy/CVPR21Chal-SLR
研究动机与目标
- 以丰富的多模态信息与全身姿态信息来推动手语识别(SLR)的研究。
- 开发一个基于骨架的 SLR 框架(SL-GCN),具备新颖的时空图和注意力机制。
- 提出 SSTCN,通过可分离的时空卷积有效利用骨架特征。
- 在统一的 SAM-SLR 框架中将基于骨架的线索与 RGB 和深度模态融合,以提升准确性。
- 在 AUTSL 上展示最先进的性能并分析各组件的贡献。
提出的方法
- 从预训练姿态估计器构建一个包含 27 节点的全身骨架图(将 133 个关键点降维)用于 SLR。
- 引入带有解耦的空间卷积、STC 注意力、时域卷积以及 DropGraph 的 SL-GCN,用于建模骨架动态。
- 开发多流骨架方法(Joint、Bone、Joint Motion、Bone Motion),并对它们的预测进行融合。
- 提出 SSTCN,通过可分离的二维卷积在四个阶段和 Swish 激活对 60 帧、33 点骨架特征进行处理。
- 实现多模态基线,使用 ResNet2+1D 和 3D CNN 变体对 RGB、光流、深度 HHA 和深度流进行建模。
- 通过晚期融合对 RGB 与 RGB-D 路线执行带学习权重的融合(模态数量为六或四,取决于路线)。
- 使用数据增强(随机采样、镜像、旋转、抖动)、标签平滑和 CSL 预训练以提升泛化能力。
实验结果
研究问题
- RQ1基于全身姿态的骨架图是否能提升 SLR 的性能,相较于仅手部或仅 RGB 的方法?
- RQ2将图从 133 节点简化为 27 节点会如何影响 SL-GCN 的效果?
- RQ3多流骨架表示(Joint、Bone、Joint Motion、Bone Motion)是否优于单流变体?
- RQ4SSTCN 是否比标准的 3D-CNN 在手语数据上更有效地利用骨架特征?
- RQ5RGB 和深度模态在统一的 SAM-SLR 框架中在多大程度上能补充骨架信号?
主要发现
- SL-GCN 通过将图简化为 27 节点实现强大的单流性能,Joint 流在验证集达到 95.02% 的 Top-1,且多流融合进一步提升结果。
- SSTCN 在骨架特征上优于 ResNet3D 和 ResNet2+1D 基线,特征尺寸的缩放带来更高的准确率。
- 基于骨架的集合方法(SL-GCN + SSTCN)优于仅 RGB 的基线,并且与 RGB/RGB-D 模态结合时,在 AUTSL 的验证集和测试集上实现了最先进的结果。
- 在 AUTSL 上,SAM-SLR 集成在 RGB 和 RGB-D 跑道中均排名第一,受益于在 CSL 上的预训练和 Swish 激活的显著提升。
- 图简化、数据增强、解耦 GCN、DropGraph 和 STC 注意力都对消融实验有显著的性能影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。