[논문 리뷰] Skeleton Aware Multi-modal Sign Language Recognition
SAM-SLR은 전체 신체 골격 그래프를 SSTCN과 다중 모달 RGB/RGB-D 스트림과 통합하여 AUTSL에서 최첨단 수화 인식 성능을 달성하고, RGB 및 RGB-D 트랙에서 CVPR-21 챌린지 1위를 차지했습니다.
Sign language is commonly used by deaf or speech impaired people to communicate but requires significant effort to master. Sign Language Recognition (SLR) aims to bridge the gap between sign language users and others by recognizing signs from given videos. It is an essential yet challenging task since sign language is performed with the fast and complex movement of hand gestures, body posture, and even facial expressions. Recently, skeleton-based action recognition attracts increasing attention due to the independence between the subject and background variation. However, skeleton-based SLR is still under exploration due to the lack of annotations on hand keypoints. Some efforts have been made to use hand detectors with pose estimators to extract hand key points and learn to recognize sign language via Neural Networks, but none of them outperforms RGB-based methods. To this end, we propose a novel Skeleton Aware Multi-modal SLR framework (SAM-SLR) to take advantage of multi-modal information towards a higher recognition rate. Specifically, we propose a Sign Language Graph Convolution Network (SL-GCN) to model the embedded dynamics and a novel Separable Spatial-Temporal Convolution Network (SSTCN) to exploit skeleton features. RGB and depth modalities are also incorporated and assembled into our framework to provide global information that is complementary to the skeleton-based methods SL-GCN and SSTCN. As a result, SAM-SLR achieves the highest performance in both RGB (98.42\%) and RGB-D (98.53\%) tracks in 2021 Looking at People Large Scale Signer Independent Isolated SLR Challenge. Our code is available at https://github.com/jackyjsy/CVPR21Chal-SLR
연구 동기 및 목표
- Rich 모달 다중 정보와 전체 신체 포즈 정보를 활용한 수화 인식(SLR) 동기 부여.
- Novel한 시공간 그래프 및 주의 메커니즘을 갖춘 골격 기반 SLR 프레임워크(SL-GCN) 개발.
- 분리 가능한 공간-시간 컨볼루션으로 골격 특징을 효과적으로 활용하는 SSTCN 제안.
- SAM-SLR 프레임워크에서 골격 기반 신호를 RGB 및 깊이 모달리티와 융합하여 정확도 향상.
- AUTSL에서 최첨단 성능 시연 및 구성요소 기여 분석.
제안 방법
- SLR를 위해 사전 학습된 포즈 추정기로부터 27-노드 전체 신체 골격 그래프를 구성(133 키포인트 축소).
- 골격 역학 모델링을 위한 분리된 공간 컨볼루션, STC 주의, 시간 컨볼루션 및 DropGraph를 갖춘 SL-GCN 도입.
- Joint, Bone, Joint Motion, Bone Motion의 다중 스트림 골격 접근법 개발 및 예측 앙상블.
- 4단계에서 60프레임, 33포인트 골격 특징을 처리하는 SSTCN을 제안하고 분리 가능한 2D 컨볼루션과 Swish 활성화를 적용.
- ResNet2+1D 및 3D CNN 변형을 사용한 RGB, 광류, 깊이 HHA, 깊이 흐름의 다중 모달 baselines 구현.
- RGB 및 RGB-D 트랙에서 학습된 가중치를 사용한 레이트 앙상블 방식으로 모달리티를 융합(트랙에 따라 여섯 모달리티 또는 네 모달리티).
- 일반화 향상을 위한 데이터 증강(무작위 샘플링, 대칭, 회전, 떨림), 라벨 부드럽게 하기, CSL 프리트레이닝 사용.
실험 결과
연구 질문
- RQ1전체 신체 포즈 기반 골격 그래프가 손 위주 또는 RGB 전용 방법보다 SLR 성능을 개선할 수 있는가?
- RQ2133개에서 27개 노드로의 그래프 축소가 SL-GCN의 효과에 어떤 영향을 미치는가?
- RQ3다중 스트림 골격 표현(Joint, Bone, Joint Motion, Bone Motion)이 단일 스트림 변형보다 성능이 우수한가?
- RQ4SSTCN이 Sign Language 데이터에 대해 표준 3D CNN보다 골격 특징을 더 잘 활용하는가?
- RQ5RGB 및 깊이 모달리티가 골격 기반 신호를 서 unified SAM-SLR 프레임워크에서 얼마나 보완하는가?
주요 결과
- 27 노드로 그래프를 축소한 SL-GCN은 높은 단일 스트림 성능을 달성하며, Joint 스트림이 검증에서 Top-1 95.02%에 도달하고 다중 스트림 융합이 결과를 더 향상시킵니다.
- SSTCN은 골격 특징에서 ResNet3D 및 ResNet2+1D baselines를 능가하며 특징 크기 확장으로 정확도가 높아집니다.
- 골격 기반 앙상블(SL-GCN + SSTCN)은 RGB 전용 베이스라인보다 우수하며, RGB/RGB-D 모달리티를 결합할 때 AUTSL 검증 및 테스트 세트에서 최첨단 결과를 달성합니다.
- AUTSL에서 SAM-SLR 앙상블은 RGB 및 RGB-D 챌린지 트랙에서 1위를 차지했으며, CSL 프리트레이닝 및 Swish 활성화의 기여가 크게 작용했습니다.
- 그래프 축소, 데이터 증강, 분리된 GCN, DropGraph, STC 주의가 모두 ablation 분석에서 상당한 성능 영향이 있음을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.