QUICK REVIEW

[論文レビュー] Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble

Songyao Jiang, Bin Sun|arXiv (Cornell University)|Oct 12, 2021

Hand Gesture Recognition Systems参考文献 69被引用数 30

ひとこと要約

本論文はSAM-SLR-v2を提案します。これは2D/3D全身骨格グラフとRGB/RGB-Dの手がかりをGlobal Ensemble Modelで結合し、複数データセットでの単独SLRにおいて最先端の性能を達成する skeleton-aware multi-modal フレームワークです。

ABSTRACT

Sign language is commonly used by deaf or mute people to communicate but requires extensive effort to master. It is usually performed with the fast yet delicate movement of hand gestures, body posture, and even facial expressions. Current Sign Language Recognition (SLR) methods usually extract features via deep neural networks and suffer overfitting due to limited and noisy data. Recently, skeleton-based action recognition has attracted increasing attention due to its subject-invariant and background-invariant nature, whereas skeleton-based SLR is still under exploration due to the lack of hand annotations. Some researchers have tried to use off-line hand pose trackers to obtain hand keypoints and aid in recognizing sign language via recurrent neural networks. Nevertheless, none of them outperforms RGB-based approaches yet. To this end, we propose a novel Skeleton Aware Multi-modal Framework with a Global Ensemble Model (GEM) for isolated SLR (SAM-SLR-v2) to learn and fuse multi-modal feature representations towards a higher recognition rate. Specifically, we propose a Sign Language Graph Convolution Network (SL-GCN) to model the embedded dynamics of skeleton keypoints and a Separable Spatial-Temporal Convolution Network (SSTCN) to exploit skeleton features. The skeleton-based predictions are fused with other RGB and depth based modalities by the proposed late-fusion GEM to provide global information and make a faithful SLR prediction. Experiments on three isolated SLR datasets demonstrate that our proposed SAM-SLR-v2 framework is exceedingly effective and achieves state-of-the-art performance with significant margins. Our code will be available at https://github.com/jackyjsy/SAM-SLR-v2

研究の動機と目的

手指の微細なジェスチャと話者変動のため、サインランゲージ認識（SLR）を難易度の高いタスクとして位置づける。
手と同様に手の関節を含む全身のキーポイントを用いた骨格ベース表現とグラフベースの動的モデルを探究する。
補完的モダリティを活用する自動的でデータ駆動型のアンサンブルを用いた多模態融合を開発する。
RGBおよびRGB-Dデータを用いたいくつかの isolated SLRデータセットで最先端性能を示す。

提案手法

事前訓練済みポーズ推定器から2D/3D全身骨格グラフを（27ノードへ縮約して）構築し、サインのダイナミクスをモデル化する。
JOINT・BONE・JOINTモーション・BONEモーションというマルチストリーム入力を持つSL-GCNを提案し、STC自己注意を持つデカップルドGCNで堅牢なダイナミクス学習を実現する。
Separableな4段構成アーキテクチャとSwish活性化関数によるラベルスムージングを特徴とするSSTCNを導入し、骨格特徴を活用する。
RGB、光学フロー、HHA、深度モダリティに対してSLR500で事前訓練を行った3DCNNベースラインを開発する。
RGBおよびRGB-Dトラックに対してモダリティ重みを自動的に学習するGlobal Ensemble Model（GEM）を提案し、固定的なlate-fusion手法を上回る。

実験結果

リサーチクエスチョン

RQ1全身2D/3Dの骨格グラフ（手を含む）がRGBのみの手法と比較して isolated SLRの性能を向上させるか？
RQ2マルチストリームの骨格ダイナミクス（関節/骨とそのモーション）は単一ストリームより優れた認識を提供するか？
RQ3learnableなlate-fusionアンサンブル（GEM）は7つのモダリティ全体で手作業の固定融合を上回るか？
RQ4Skeletonベースの手法はAUTSL、SLR500、WLASL2000データセットでRGB/RGB-Dベースラインと比較してどうか？
RQ5グラフ縮約、STC注意、SSTCN、事前訓練の各成分は最終精度にどの程度寄与するか？

主な発見

Dataset	Top-1 (SL-GCN streams)	Top-5 (SL-GCN streams)	Top-1 (Single-modality)	Top-5 (Single-modality)	Top-1 (RGB-Flow/HHA/etc.)	Top-5 (RGB-Flow/HHA/etc.)	Notes
AUTSL (検証)	95.02	N/A	95.00 (RGB Frames)	99.47	90.41 (RGB Flow)	98.0?	Ablation indicates deep impact of components on AUTSL validation
SL-GCN Multi-stream (AUTSL)	96.47	99.76	N/A	N/A	N/A	N/A	See Table II for multi-streams results
SL-GCN Multi-stream (SLR500)	98.16	99.95	N/A	N/A	N/A	N/A	See Table II
SL-GCN Multi-stream (WLASL2000)	51.50	84.94	N/A	N/A	N/A	N/A	See Table II

骨格グラフを用いたマルチストリームSL-GCNはAUTSL、SLR500、WLASL2000で高いTop-1/Top-5精度を達成する（例：マルチストリーム AUTSL: 96.47/99.76 top-1/top-5）。
単一モダリティの骨格ストリーム（2D/3Dキーポイント）はAUTSLで他の単一モダリティを上回る（例：2D: 96.47 top-1; 3D: 96.53 top-1）。
グラフ縮約（133ノードから27ノードへの縮約）は精度を大幅に高め、過学習を回避するのに寄与する。
SSTCNは骨格特徴に対して従来の3D畳み込みより競争的な利益を提供し、Swish活性化とラベルスムージングは一般化を向上させる。
GEM融合はモダリティ重みを学習し、AUTSLのRGBおよびRGB-Dトラックで最先端の結果を達成する（例：RGB: 98.00 top-1; RGB-D: 98.10 top-1、微調整は必須でない）。
ベースラインと比較して、SAM-SLR-v2は評価データセットでこれまでの手法を大きく上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。