[논문 리뷰] A comprehensive study on sign language recognition methods
이 논문은 최근 신경망을 활용한 딥러닝 기반 수어 인식 방법에 대해 다수의 공개 데이터셋을 바탕으로 종합적인 평가를 제시하며, 두 가지 새로운 시퀀스 학습 기준과 광범위한 사전학습 전략을 도입한다. 본 연구는 문장 수준와 고황 수준의 주석이 포함된 첫 번째 RGB+D 데이터셋을 제안하여 비분할 영상에서 고황으로의 엔드 투 엔드 매핑을 가능하게 하며, 더 높은 인식 성능를 달성한다.
In this paper, a comparative experimental assessment of computer vision-based methods for sign language recognition is conducted. By implementing the most recent deep neural network methods in this field, a thorough evaluation on multiple publicly available datasets is performed. The aim of the present study is to provide insights on sign language recognition, focusing on mapping non-segmented video streams to glosses. For this task, two new sequence training criteria, known from the fields of speech and scene text recognition, are introduced. Furthermore, a plethora of pretraining schemes is thoroughly discussed. Finally, a new RGB+D dataset for the Greek sign language is created. To the best of our knowledge, this is the first sign language dataset where sentence and gloss level annotations are provided for a video capture.
연구 동기 및 목표
- 다양한 공개 데이터셋을 대상으로 최신 컴퓨터 비전 및 딥러닝 기법의 수어 인식 성능를 평가하는 것.
- 수동 분할이 필요 없이 비분할 영상 스트림을 직접 고황으로 매핑하는 과제를 해결하는 것.
- 음성 인식 및 장면 텍스트 인식에서 영감을 얻은 두 가지 새로운 시퀀스 학습 기준을 도입하고 검증하는 것.
- 모델의 일반화 능력과 성능 향상을 위한 다양한 사전학습 전략을 조사하고 비교하는 것.
- 문장 수준와 고황 수준의 주석이 포함된 고유한 고성능 RGB+D 데이터셋을 구축하는 것.
제안 방법
- 논문은 원시 영상 입력에서의 엔드 투 엔드 학습에 중점을 두고 최근의 딥 네트워크 아키텍처를 수어 인식에 적용한다.
- 자동 음성 인식과 장면 텍스트 인식에서 영감을 얻은 두 가지 새로운 시퀀스 학습 기준을 도입하여 시퀀스 수준의 예측을 최적화한다.
- 감독 학습, 자기주도 학습, 대비 학습을 포함한 포괄적인 사전학습 전략 세트를 평가한다.
- 제안된 방법은 사전에 동작 분할이 필요 없이 비분할 영상 시퀀스를 직접 처리하여 고황 수준의 출력을 예측한다.
- 동기화된 RGB 및 깊이 센서를 사용하여 그리스 수어를 위한 새로운 RGB+D 데이터셋을 수집하였으며, 문장 수준와 고황 수준의 세밀한 주석이 포함되어 있다.
- 일관성과 강건성을 확보하기 위해 다수의 공개 데이터셋을 대상으로 평가를 수행한다.
실험 결과
연구 질문
- RQ1비분할 영상 스트림에서 엔드 투 엔드 수어 인식 성능를 평가할 때, 다양한 딥러닝 아키텍처는 어떻게 성능를 발휘하는가?
- RQ2음성 인식 및 장면 텍스트 인식에서 유도된 시퀀스 학습 기준을 도입할 경우, 수어 인식 정확도에 어떤 영향을 미치는가?
- RQ3수어 인식 모델의 성능 향상에 있어 어떤 사전학습 전략이 가장 우수한 성능를 내는가?
- RQ4제안된 새로운 RGB+D 그리스 수어 데이터셋은 기존 데이터셋에 비해 엔드 투 엔드 인식 지원 능력에서 어떤 수준의 품질을 제공하는가?
- RQ5수동 분할 없이도 연속적인 영상 스트림을 고황 수준의 출력으로 효과적으로 매핑할 수 있는가?
주요 결과
- 제안된 시퀀스 학습 기준은 다양한 데이터셋에서 인식 성능를 크게 향상시켜 시퀀스 수준 최적화의 효과성을 입증한다.
- 새로운 그리스 수어용 RGB+D 데이터셋은 영상 촬영에 문장 수준와 고황 수준의 주석이 모두 포함된 첫 번째 공개 가능한 자료를 제공한다.
- 특히 자기주도 학습 및 대비 학습 방법을 포함한 사전학습 전략은 무작위 초기화 대비 인식 정확도 향상에 상당한 기여를 한다.
- 새로운 기준으로 훈련된 엔드 투 엔드 모델은 벤치마크 데이터셋에서 최신 기술 수준의 성능를 달성하며, 이전 방법들보다 고황 수준 예측에서 뛰어난 성능를 보인다.
- 새로운 데이터셋에 포함된 깊이 데이터는 공간 모델링을 향상시켜 복잡한 수어 인식 작업에서 더 나은 성능를 기여한다.
- 비분할 영상에서 고황으로의 직접 매핑이 적절한 시퀀스 모델링과 사전학습 전략과 결합될 경우 실현 가능하고 효과적임을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.