QUICK REVIEW

[論文レビュー] Video-based Sign Language Recognition without Temporal Segmentation

Jie Huang, Wengang Zhou|arXiv (Cornell University)|Jan 30, 2018

Hand Gesture Recognition Systems参考文献 33被引用数 43

ひとこと要約

本論文はLS-HANを提案する。連続SLRの時間的セグメンテーションを排除するため、グローバル・ローカル動画特徴を捉える二流3D CNNと、映像フレームを文の語と整合させる階層型注意ネットワークを備えた潜在空間を用いる。

ABSTRACT

Millions of hearing impaired people around the world routinely use some variants of sign languages to communicate, thus the automatic translation of a sign language is meaningful and important. Currently, there are two sub-problems in Sign Language Recognition (SLR), i.e., isolated SLR that recognizes word by word and continuous SLR that translates entire sentences. Existing continuous SLR methods typically utilize isolated SLRs as building blocks, with an extra layer of preprocessing (temporal segmentation) and another layer of post-processing (sentence synthesis). Unfortunately, temporal segmentation itself is non-trivial and inevitably propagates errors into subsequent steps. Worse still, isolated SLR methods typically require strenuous labeling of each word separately in a sentence, severely limiting the amount of attainable training data. To address these challenges, we propose a novel continuous sign recognition framework, the Hierarchical Attention Network with Latent Space (LS-HAN), which eliminates the preprocessing of temporal segmentation. The proposed LS-HAN consists of three components: a two-stream Convolutional Neural Network (CNN) for video feature representation generation, a Latent Space (LS) for semantic gap bridging, and a Hierarchical Attention Network (HAN) for latent space based recognition. Experiments are carried out on two large scale datasets. Experimental results demonstrate the effectiveness of the proposed framework.

研究の動機と目的

連続SLRにおける誤りを招く時間的セグメンテーションの低減を動機づける。
動画を文レベルの表現へ直接マッピングする統一フレームワークを開発する。
視覚的・文本的モダリティ間を埋める潜在空間を活用する。
大規模 CSLおよび RWTH-PHOENIX-Weather データセットでのスケーラビリティを示す。

提案手法

グローバルな動作と局所的な手のジェスチャを4096次元クリップ特徴として捉える二流3D CNNを提案する。
ビデオ特徴と文表現を同じ空間へ射影する潜在空間を、線形写像（T_v と T_s）を用いて導入する。
潜在空間における映像-文の関連性を測るためにウィンドウ制約付きDTWを用いる（E_r）。
潜在空間表現から文を生成する階層的注意ネットワーク(HAN)を適用し、エンドツーエンドの文認識を実現する（E_c）。
統一目的関数(Eq. 9)で関連性損失と文認識損失を正則化とともに jointly optimizingする。
学習はTime Backpropagationと通常の勾配法を用いてT_v, T_s, およびHANパラメータを更新する。

実験結果

リサーチクエスチョン

RQ1連続SLRは時間的セグメンテーションなしで高い精度を維持して実行できるか？
RQ2潜在空間を介して映像と文の表現を結ぶことは、標準のHANだけより認識の頑健性を向上させるか？
RQ3グローバルとローカルの手掛かりを同時に捉える二流CNNはサイン言語認識性能にどのような影響を与えるか？
RQ4LS-HANにおける映像-文の関連性と文認識の共同最適化の影響は？
RQ5LS-HANは従来法と比べて大規模なCSLおよびRWTH-PHOENIX-Weatherデータセットでどうなるか？

主な発見

LS-HANはCSLデータセットでいくつかのベースラインより高い精度を達成（0.827のバリアントあり）。
時間的セグメンテーションに依存する手法（例：CRF、LDCRF、DTW-HMM）をCSLで大幅に上回る。
RWTH-PHOENIX-Weatherでは、手順列を用いたLS-HANが0.617の精度を達成し、いくつかの深層手や再帰型CNNベースラインを上回った。
HAN由来の出力と潜在空間DTW距離の比較は、動画-文関連性モデル化を支持する一般的な傾向と整合性を示した。
感度分析では関連性と一貫性損失のトレードオフにおいてlambda_1が約0.6付近で最適となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。