[論文レビュー] SF-Net: Structured Feature Network for Continuous Sign Language Recognition
SF-Net は、フレームレベルの監督がない状態で、フレーム、グロス、そして文レベルの特徴を構造化したエンドツーエンドのフレームワークで学習し、連続手話認識を改善します。CSLおよびRWTH-PHOENIXデータセットで最先端の結果を達成します。
Continuous sign language recognition (SLR) aims to translate a signing sequence into a sentence. It is very challenging as sign language is rich in vocabulary, while many among them contain similar gestures and motions. Moreover, it is weakly supervised as the alignment of signing glosses is not available. In this paper, we propose Structured Feature Network (SF-Net) to address these challenges by effectively learn multiple levels of semantic information in the data. The proposed SF-Net extracts features in a structured manner and gradually encodes information at the frame level, the gloss level and the sentence level into the feature representation. The proposed SF-Net can be trained end-to-end without the help of other models or pre-training. We tested the proposed SF-Net on two large scale public SLR datasets collected from different continuous SLR scenarios. Results show that the proposed SF-Net clearly outperforms previous sequence level supervision based methods in terms of both accuracy and adaptability.
研究の動機と目的
- グロス整列が利用できない弱教師ありの連続SLRに対処する。
- フレーム、グロス、文レベルで特徴学習を構造化することにより、多層の意味情報を捉える。
- 追加の事前学習や補助モデルなしでエンドツーエンドのトレーニングを可能にする。
- 多様な署名シナリオを持つデータセット間で認識精度と適応性を向上させる。
提案手法
- 2D/3D畳み込みフレームワークを用いて、2Dブランチと3Dブランチを合算することで残差時間学習を取り入れ、フレームレベルの特徴を抽出する。
- メタフレームを作成するためのグロスレベルのフレーミング演算を導入し、メタフレーム内の時間的依存をモデル化するためにLSTMを使用する。
- グロスと文レベルの分布を整合させるため、KLダイバージェンスに基づくグロスレベル正則化を適用する。
- グロスレベル特徴に対してBi-LSTMで文レベルの文脈をモデル化し、CTC損失で最適化する。
- 推論時には貪欲デコーダを用いて文レベルの予測から最終的なグロス列を得る。
実験結果
リサーチクエスチョン
- RQ1フレーム、グロス、文の多段階 Feature 学習アーキテクチャは、フレームレベルの監視なしで連続SLRを改善できるか。
- RQ23D畳み込みとグロスレベルのフレーミングを取り入れると、データセット全体で整合性と認識精度が向上するか。
- RQ3グロスレベル正則化とその導入タイミングが、訓練の安定性と最終性能に与える影響は?
- RQ4大規模なCSLおよびRWTH-PHOENIX-Weather-2014データセットに対する、従来の文レベル監視法と比較してSF-Netの性能はどうか?
主な発見
| 手法 | WER |
|---|---|
| DTW-HMM | 28.4 |
| LSTM | 26.4 |
| S2VT | 25.5 |
| LSTM-A | 24.3 |
| LSTM-E | 23.2 |
| HAN | 20.7 |
| LS-HAN | 17.3 |
| SubUNet | 11.0 |
| SF-Net (scratch) | 4.8 |
| SF-Net | 3.8 |
- SF-Net は CSL および RWTH-PHOENIX-Weather-2014 データセットで、従来の文レベル監視ベースの手法を上回る。
- 3D畳み込みブランチの組み込みは、語レベルの CSL 精度と文レベルの RWTH-WER の顕著な向上をもたらす。
- LSTMを用いたグロスレベルのフレーミングは、フレームレベルのみの手法と比べて整列性を大幅に改善し、デコーディングエラーを減らす。
- 適切な訓練段階で導入された場合、語彙が豊富なRWTHデータセットで性能が向上するグロスレベル正則化。
- SF-Net は CSL(Scratch: 4.8、pretraining: 3.8 WER)および RWTH(Scratch: 38.1–40.8 WER、セットアップにより異なる;pretraining で改善)で最先端の結果を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。