QUICK REVIEW

[논문 리뷰] SF-Net: Structured Feature Network for Continuous Sign Language Recognition

Zhaoyang Yang, Zhenmei Shi|arXiv (Cornell University)|2019. 08. 04.

Hand Gesture Recognition Systems참고 문헌 38인용 수 49

한 줄 요약

SF-Net은 프레임-급, 글로스-급, 문장-급 특징을 구조화된 엔드투엔드 프레임워크에서 학습하여 프레임-레벨 감독 없이 연속 수화 인식을 개선합니다. CSL과 RWTH-PHOENIX 데이터셋에서 최첨단 결과를 달성합니다.

ABSTRACT

Continuous sign language recognition (SLR) aims to translate a signing sequence into a sentence. It is very challenging as sign language is rich in vocabulary, while many among them contain similar gestures and motions. Moreover, it is weakly supervised as the alignment of signing glosses is not available. In this paper, we propose Structured Feature Network (SF-Net) to address these challenges by effectively learn multiple levels of semantic information in the data. The proposed SF-Net extracts features in a structured manner and gradually encodes information at the frame level, the gloss level and the sentence level into the feature representation. The proposed SF-Net can be trained end-to-end without the help of other models or pre-training. We tested the proposed SF-Net on two large scale public SLR datasets collected from different continuous SLR scenarios. Results show that the proposed SF-Net clearly outperforms previous sequence level supervision based methods in terms of both accuracy and adaptability.

연구 동기 및 목표

글로스 정렬이 불가능한 상태에서 약한 감독 하의 연속 SLR를 다룬다.
프레임, 글로스, 문장 수준에서 특징 학습을 구조화하여 다층 의미 정보를 포착한다.
추가 사전 학습이나 보조 모델 없이 엔드투엔드 학습을 가능하게 한다.
다양한 서명 시나리오를 가진 데이터셋 간 인식 정확도와 적응성을 향상한다.

제안 방법

소실 시간적 학습을 합산하는 2D/3D 합성곱 프레임워크를 사용해 프레임-레벨 특징을 추출한다.
메타-프레임을 만들고 메타-프레임 내 시간 의존성을 모델링하기 위해 LSTM을 사용하기 위해 글로스-레벨 프레이밍 연산을 도입한다.
글로스-레벨 정규화(카를리-리벡-덴버그(Kullback–Leibler) 발산 기반의 규제자)를 적용해 글로스와 문장 수준 분포를 정렬한다.
Bi-LSTM을 통해 글로스-레벨 특징에서 문장 수준 맥락을 모델링하고 CTC 손실로 최적화한다.
테스트 시점에 최종 글로스 시퀀스를 문장-레벨 예측에서 얻기 위해 그리디 디코더를 사용한다.

실험 결과

연구 질문

RQ1프레임, 글로스, 문장의 다층(다중 수준) 특징 학습 아키텍처가 프레임-레벨 감독 없이 지속적 SLR을 개선할 수 있는가?
RQ23D 합성곱과 글로스-레벨 프레이밍을 도입하면 데이터셋 간 정렬 및 인식 정확도가 향상되는가?
RQ3글로스-레벨 규제자의 영향과 도입 시점이 학습 안정성 및 최종 성능에 어떤 영향을 미치는가?
RQ4SF-Net이 대규모 CSL 및 RWTH-PHOENIX-Weather-2014 데이터셋에서 이전 문장 수준 감독 방법에 비해 어떤 성능을 보이는가?

주요 결과

SF-Net은 CSL 및 RWTH-PHOENIX-Weather-2014 데이터셋에서 이전의 문장 수준 감독 기반 방법을 능가한다.
3D 합성곱 분기를 도입하면 단어 수준 CSL 정확도와 문장 수준 RWTH-WER에서 눈에 띄는 이득을 얻는다.
LSTM을 이용한 글로스-레벨 프레이밍은 정합을 크게 개선하고 프레임-레벨 전용 접근법에 비해 디코딩 오류를 줄인다.
적절한 학습 단계에서 도입되었을 때 글로스-레벨 규제자는 RWTH 데이터셋의 어휘 수가 풍부한 경우 성능을 향상시킨다.
SF-Net은 CSL에서 최첨단 결과를 달성한다(초기 학습: 4.8, 사전학습 시: 3.8 WER) 및 RWTH에서(초기 학습: 38.1–40.8 WER, 설정에 따라; 사전학습으로 개선).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.