[論文レビュー] Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison
この論文は、2万1千以上の動画を含む大規模な単語レベルのASL (WLASL) データセットを導入し、appearanceベースとposeベースのベースラインを比較し、Pose-TGCNを提案して空間および時間のポーズダイナミクスを共同モデル化します。
Vision-based sign language recognition aims at helping deaf people to communicate with others. However, most existing sign language datasets are limited to a small number of words. Due to the limited vocabulary size, models learned from those datasets cannot be applied in practice. In this paper, we introduce a new large-scale Word-Level American Sign Language (WLASL) video dataset, containing more than 2000 words performed by over 100 signers. This dataset will be made publicly available to the research community. To our knowledge, it is by far the largest public ASL dataset to facilitate word-level sign recognition research. Based on this new large-scale dataset, we are able to experiment with several deep learning methods for word-level sign recognition and evaluate their performances in large scale scenarios. Specifically we implement and compare two different models,i.e., (i) holistic visual appearance-based approach, and (ii) 2D human pose based approach. Both models are valuable baselines that will benefit the community for method benchmarking. Moreover, we also propose a novel pose-based temporal graph convolution networks (Pose-TGCN) that models spatial and temporal dependencies in human pose trajectories simultaneously, which has further boosted the performance of the pose-based method. Our results show that pose-based and appearance-based models achieve comparable performances up to 66% at top-10 accuracy on 2,000 words/glosses, demonstrating the validity and challenges of our dataset. Our dataset and baseline deep models are available at \url{https://dxli94.github.io/WLASL/}.
研究の動機と目的
- インターネット上のソースから収集した大規模でサインラー多様なデータセットを用いて、スケーラブルな単語レベルのASL認識を動機づけ、実現する。
- 将来の研究をベンチマークするために、appearanceベースとposeベースのサイン認識の公開可能なベースラインを提供する。
- 大規模語彙に対して、poseベースの時系列グラフネットワーク(Pose-TGCN)とappearanceベースの手法の比較効果を調査する。
提案手法
- 21,083 本の動画、119 名のサインラー、3,126 gloss を含む、大規模なモノクラリRGB単眼 Word-Level ASLデータセット(WLASL)を構築する;サイナー多様性と方言注釈を保証する。
- appearanceベースのベースラインを開発する:2D CNN(VGG16)+ GRU、およびKinetics由来特徴でファインチューニングされた3D CNN(I3D)。
- poseベースのベースラインを開発する:GRUを用いた55個の2DキーポイントのPose-GRU;全身キーポイント軌道上の時系列グラフ畳み込みを用いたPose-TGCN。
- 時間的グラフ畳み込みネットワーク(TGCN)を提案する。人間の身体を全結合グラフとして学習可能な隣接行列でモデル化し、残差ブロックを積み重ね、時間方向に平均プーリングして分類を行う。
- 標準的なトレーニングプロトコル:バウンディングボックス対角を256にリサイズ;トレーニング用にランダムに50フレームのクリップを使用;Adamオプティマイザ;200エポック;各 gloss ごとに train/val/test を4:1:1の比率で分割。
実験結果
リサーチクエスチョン
- RQ1大規模でサインラー多様な単語レベルのASLデータセットは、数千の gloss の堅牢な学習を可能にするか。
- RQ2大語彙の単語レベルのサイン認識において、appearanceベースとposeベースのアプローチはどのように比較されるか。
- RQ3ポーズベースの時系列グラフアプローチ(Pose-TGCN)は、標準のポーズおよびappearanceベースのベースラインよりサイン言語認識で優れているか。
- RQ4語彙サイズとサンプル数が、単語レベルのSLRのモデル性能に与える影響は何か。
主な発見
| Model | WLASL100_top1 | WLASL100_top5 | WLASL100_top10 | WLASL300_top1 | WLASL300_top5 | WLASL300_top10 | WLASL1000_top1 | WLASL1000_top5 | WLASL1000_top10 | WLASL2000_top1 | WLASL2000_top5 | WLASL2000_top10 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Pose-GRU | 46.51 | 76.74 | 85.66 | 33.68 | 64.37 | 76.05 | 30.01 | 58.42 | 70.15 | 22.54 | 49.81 | 61.38 |
| Pose-TGCN | 55.43 | 78.68 | 87.60 | 38.32 | 67.51 | 79.64 | 34.86 | 61.73 | 71.91 | 23.65 | 51.75 | 62.24 |
| VGG-GRU | 25.97 | 55.04 | 63.95 | 19.31 | 46.56 | 61.08 | 14.66 | 37.31 | 49.36 | 8.44 | 23.58 | 32.58 |
| I3D | 65.89 | 84.11 | 89.92 | 56.14 | 79.94 | 86.98 | 47.33 | 76.44 | 84.33 | 32.48 | 57.31 | 66.31 |
- WLASL は 21,083 本の動画を 2,000 gloss のために 119 名のサインラーから収集したものであり、データセットは公開されている。
- Pose-TGCN は、大規模語彙で appearance ベースのモデルと競合するTop-10性能を達成(WLASL2000 で最高 62.24% の Top-10、状況によって I3D に匹敵)。
- I3D は一般に VGG-GRU より上回り、Pose-TGCN は Pose-GRU を上回ることを示しており、空間と時間のポーズ情報を共同でモデル化する利点を示す。
- 小規模語彙のサブセットでは、 poseベースと appearanceベースの両方の方法がより良い性能を示すが、語彙サイズが増えると性能は飽和する。より大きな語彙はより多くの曖昧さを導入し、より多くのデータや高度な学習戦略を必要とする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。