QUICK REVIEW

[논문 리뷰] Video-based Sign Language Recognition without Temporal Segmentation

Jie Huang, Wengang Zhou|arXiv (Cornell University)|2018. 01. 30.

Hand Gesture Recognition Systems참고 문헌 33인용 수 43

한 줄 요약

본 논문은 LS-HAN을 제안하며, 전역-로컬 비디오 특징을 위한 두 스트림 3D CNN과 문장 어휘의 프레임을 맞추기 위한 잠재 공간의 계층적 어텐션 네트워크를 활용해 시간 분절을 제거하는 연속 수화 인식 프레임워크를 제시합니다.

ABSTRACT

Millions of hearing impaired people around the world routinely use some variants of sign languages to communicate, thus the automatic translation of a sign language is meaningful and important. Currently, there are two sub-problems in Sign Language Recognition (SLR), i.e., isolated SLR that recognizes word by word and continuous SLR that translates entire sentences. Existing continuous SLR methods typically utilize isolated SLRs as building blocks, with an extra layer of preprocessing (temporal segmentation) and another layer of post-processing (sentence synthesis). Unfortunately, temporal segmentation itself is non-trivial and inevitably propagates errors into subsequent steps. Worse still, isolated SLR methods typically require strenuous labeling of each word separately in a sentence, severely limiting the amount of attainable training data. To address these challenges, we propose a novel continuous sign recognition framework, the Hierarchical Attention Network with Latent Space (LS-HAN), which eliminates the preprocessing of temporal segmentation. The proposed LS-HAN consists of three components: a two-stream Convolutional Neural Network (CNN) for video feature representation generation, a Latent Space (LS) for semantic gap bridging, and a Hierarchical Attention Network (HAN) for latent space based recognition. Experiments are carried out on two large scale datasets. Experimental results demonstrate the effectiveness of the proposed framework.

연구 동기 및 목표

연속 SLR에서 오류가 발생하기 쉬운 시간 분절의 감소를 동기화합니다.
비디오를 문장 수준 표현으로 직접 매핑하는 통합 프레임워크를 개발합니다.
시각적 모달리티와 텍스트 모달리티를 연결하기 위해 잠재 공간을 활용합니다.
대규모 CSL 및 RWTH-PHOENIX-Weather 데이터셋에서 확장성을 보여줍니다.

제안 방법

글로벌 모션과 로컬 손 제스처를 4096차원의 클립 특징으로 포착하는 두 스트림 3D CNN을 제안합니다.
비디오 특징과 문장 표현을 같은 공간으로 매핑하는 선형 매핑(T_v, T_s)을 사용한 잠재 공간을 도입합니다.
잠재 공간에서 비디오-문장 관련성을 측정하기 위해 Windows 제약이 있는 DTW를 사용합니다(E_r).
잠재 공간 표현으로부터 문장을 생성하기 위해 계층적 어텐션 네트워크(HAN)를 적용하여 엔드-투-엔드 문장 인식을 가능하게 합니다(E_c).
일반화된 목적 함수(E_q 9)에서 관련도와 문장 인식 손실(E_r, E_c)을 함께 규제하며 최적화합니다.
T_v, T_s, HAN 파라미터를 업데이트하기 위해 역전파를 통한 시간 역전파(backpropagation through time) 및 일반 기울기 방법을 사용합니다.

실험 결과

연구 질문

RQ1연속 SLR이 시간 분절 없이도 높은 정확도로 수행될 수 있는가?
RQ2비디오와 문장 표현을 잇는 잠재 공간이 표준 HAN만 사용하는 경우보다 인식 강건성을 개선하는가?
RQ3글로벌 및 로컬 단서를 포착하는 두 스트림 CNN이 수화 인식 성능에 어떤 영향을 미치는가?
RQ4LS-HAN에서 비디오-문장 관련성 최적화와 문장 인식의 공동 최적화가 성능에 어떤 영향을 미치는가?
RQ5LS-HAN이 대규모 CSL 및 RWTH-PHOENIX-Weather 데이터셋에서 기존 방법과 비교해 어떤 성능을 보이는가?

주요 결과

LS-HAN은 CSL 데이터셋에서 여러 기준선보다 높은 정확도(한 변형에서 0.827)를 달성합니다.
LS-HAN은 시간 분절에 의존하는 방법(CRF, LDCRF, DTW-HMM 등) 대비 CSL에서 상당한 격차로 더 우수한 성능을 보입니다.
RWTH-PHOENIX-Weather에서 손 시퀀스를 이용한 LS-HAN은 0.617 정확도를 달성하여 일부 심층 손/순환 CNN 기반 기준보다 우수합니다.
HAN 유도 출력과 잠재 공간 DTW 거리 간의 비교는 일반적으로 정렬된 경향을 보여 비디오-문장 관련성 모델링을 지지합니다.
감도 분석에서 관련도 손실과 일관성 손실 간의 트레이드오프를 위한 최적의 lambda_1은 약 0.6으로 나타났습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.