[論文レビュー] Skeleton Aware Multi-modal Sign Language Recognition
SAM-SLRは全身の骨格グラフをSSTCNおよびマルチモーダル RGB/RGB-D ストリームと統合し、AUTSLで最先端の手話認識を実現する。CVPR-21チャレンジのRGBおよびRGB-Dトラックで1位にランクイン。
Sign language is commonly used by deaf or speech impaired people to communicate but requires significant effort to master. Sign Language Recognition (SLR) aims to bridge the gap between sign language users and others by recognizing signs from given videos. It is an essential yet challenging task since sign language is performed with the fast and complex movement of hand gestures, body posture, and even facial expressions. Recently, skeleton-based action recognition attracts increasing attention due to the independence between the subject and background variation. However, skeleton-based SLR is still under exploration due to the lack of annotations on hand keypoints. Some efforts have been made to use hand detectors with pose estimators to extract hand key points and learn to recognize sign language via Neural Networks, but none of them outperforms RGB-based methods. To this end, we propose a novel Skeleton Aware Multi-modal SLR framework (SAM-SLR) to take advantage of multi-modal information towards a higher recognition rate. Specifically, we propose a Sign Language Graph Convolution Network (SL-GCN) to model the embedded dynamics and a novel Separable Spatial-Temporal Convolution Network (SSTCN) to exploit skeleton features. RGB and depth modalities are also incorporated and assembled into our framework to provide global information that is complementary to the skeleton-based methods SL-GCN and SSTCN. As a result, SAM-SLR achieves the highest performance in both RGB (98.42\%) and RGB-D (98.53\%) tracks in 2021 Looking at People Large Scale Signer Independent Isolated SLR Challenge. Our code is available at https://github.com/jackyjsy/CVPR21Chal-SLR
研究の動機と目的
- リッチなマルチモーダル情報と全身ポーズ情報を用いて手話認識(SLR)を動機づける。
- 新規の時空間グラフとアテンション機構を備えた骨格ベースのSLRフレームワーク(SL-GCN)を開発する。
- 分離可能な時空間畳み込みを介して骨格特徴を効果的に活用する SSTCN を提案する。
- 骨格ベースの手掛かりとRGBおよび深度モダリティを統合されたSAM-SLRフレームワークで融合し、精度を向上させる。
- AUTSLで最先端の性能を実証し、各構成要素の寄与を分析する。
提案手法
- SLRのために事前学習済みポーズ推定器から27ノードの全身骨格グラフを構築する(133キーとなる点を削減)。
- 空間畳み込みを分離したSL-GCN、STCアテンション、時間的畳み込み、そして骨格ダイナミクスモデリングのためのDropGraphを導入する。
- Joint、Bone、Joint Motion、Bone Motion のマルチストリーム骨格アプローチを開発し、予測をアンサンブルする。
- 4段階とSwish活性化を用いて、60フレーム・33点の骨格特徴を separableな2D畳み込みで処理するSSTCNを提案する。
- ResNet2+1Dおよび3D CNN系の派生を用いて、RGB、光学フロー、深度HHA、および深度フローのマルチモーダルベースラインを実装する。
- RGBおよびRGB-Dトラックで学習された重みによる遅延アンサンブルを介してモダリティを融合する(トラックに応じて6モダリティまたは4モダリティ)。
- データ拡張(ランダムサンプリング、ミラーリング、回転、ジッター)、ラベルスムージング、CSL事前学習を活用して一般化を向上させる。
実験結果
リサーチクエスチョン
- RQ1全身ポーズベースの骨格グラフは、ハンド中心またはRGBのみの手法よりSLRの性能を向上させることができるか。
- RQ2133ノードから27ノードへのグラフ削減はSL-GCNの有効性にどのように影響するか。
- RQ3マルチストリーム骨格表現(Joint, Bone, Joint Motion, Bone Motion)は、シングルストリームのバリアントより優れているか。
- RQ4SSTCNは手話データに対して標準的な3D CNNよりも効果的に骨格特徴を活用できるか。
- RQ5RGBおよび深度モダリティは統合されたSAM-SLRフレームワークで Skeletonベースの信号をどの程度補完できるか。
主な発見
| ストリーム | Top-1 | Top-5 |
|---|---|---|
| Joint | 95.02 | 99.21 |
| Bone | 94.70 | 99.14 |
| Joint Motion | 93.01 | 98.85 |
| Bone Motion | 92.49 | 98.78 |
| Multi-stream | 95.45 | 99.25 |
- 27ノードへのグラフ削減を用いたSL-GCNは強力な単一ストリーム性能を達成し、Jointストリームが検証でTop-1 95.02%を達成、マルチストリームの融合でさらに結果を改善。
- SSTCNはSkeleton特徴に対してResNet3DおよびResNet2+1Dベースラインを上回り、特徴サイズのスケーリングで精度が向上。
- Skeletonベースのアンサンブル(SL-GCN + SSTCN)はRGBのみのベースラインを上回り、RGB/RGB-Dモダリティと組み合わせるとAUTSLの検証およびテストセットで最先端の結果を達成。
- AUTSLでは、SAM-SLRアンサンブルがRGBおよびRGB-Dの両チャンレジトラックで1位にランクされ、 CSLでの事前学習とSwish活性化による顕著な利得がある。
- グラフ削減、データ拡張、分離型GCN、DropGraph、STCアテンションは、アブレーション分析で顕著な性能影響を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。