QUICK REVIEW

[논문 리뷰] A comprehensive study on sign language recognition methods

Nikolas Adaloglou|arXiv (Cornell University)|2025. 01. 01.

Hand Gesture Recognition Systems인용 수 33

한 줄 요약

이 논문은 최근 신경망을 활용한 딥러닝 기반 수어 인식 방법에 대해 다수의 공개 데이터셋을 바탕으로 종합적인 평가를 제시하며, 두 가지 새로운 시퀀스 학습 기준과 광범위한 사전학습 전략을 도입한다. 본 연구는 문장 수준와 고황 수준의 주석이 포함된 첫 번째 RGB+D 데이터셋을 제안하여 비분할 영상에서 고황으로의 엔드 투 엔드 매핑을 가능하게 하며, 더 높은 인식 성능를 달성한다.

ABSTRACT

In this paper, a comparative experimental assessment of computer vision-based methods for sign language recognition is conducted. By implementing the most recent deep neural network methods in this field, a thorough evaluation on multiple publicly available datasets is performed. The aim of the present study is to provide insights on sign language recognition, focusing on mapping non-segmented video streams to glosses. For this task, two new sequence training criteria, known from the fields of speech and scene text recognition, are introduced. Furthermore, a plethora of pretraining schemes is thoroughly discussed. Finally, a new RGB+D dataset for the Greek sign language is created. To the best of our knowledge, this is the first sign language dataset where sentence and gloss level annotations are provided for a video capture.

연구 동기 및 목표

다양한 공개 데이터셋을 대상으로 최신 컴퓨터 비전 및 딥러닝 기법의 수어 인식 성능를 평가하는 것.
수동 분할이 필요 없이 비분할 영상 스트림을 직접 고황으로 매핑하는 과제를 해결하는 것.
음성 인식 및 장면 텍스트 인식에서 영감을 얻은 두 가지 새로운 시퀀스 학습 기준을 도입하고 검증하는 것.
모델의 일반화 능력과 성능 향상을 위한 다양한 사전학습 전략을 조사하고 비교하는 것.
문장 수준와 고황 수준의 주석이 포함된 고유한 고성능 RGB+D 데이터셋을 구축하는 것.

제안 방법

논문은 원시 영상 입력에서의 엔드 투 엔드 학습에 중점을 두고 최근의 딥 네트워크 아키텍처를 수어 인식에 적용한다.
자동 음성 인식과 장면 텍스트 인식에서 영감을 얻은 두 가지 새로운 시퀀스 학습 기준을 도입하여 시퀀스 수준의 예측을 최적화한다.
감독 학습, 자기주도 학습, 대비 학습을 포함한 포괄적인 사전학습 전략 세트를 평가한다.
제안된 방법은 사전에 동작 분할이 필요 없이 비분할 영상 시퀀스를 직접 처리하여 고황 수준의 출력을 예측한다.
동기화된 RGB 및 깊이 센서를 사용하여 그리스 수어를 위한 새로운 RGB+D 데이터셋을 수집하였으며, 문장 수준와 고황 수준의 세밀한 주석이 포함되어 있다.
일관성과 강건성을 확보하기 위해 다수의 공개 데이터셋을 대상으로 평가를 수행한다.

실험 결과

연구 질문

RQ1비분할 영상 스트림에서 엔드 투 엔드 수어 인식 성능를 평가할 때, 다양한 딥러닝 아키텍처는 어떻게 성능를 발휘하는가?
RQ2음성 인식 및 장면 텍스트 인식에서 유도된 시퀀스 학습 기준을 도입할 경우, 수어 인식 정확도에 어떤 영향을 미치는가?
RQ3수어 인식 모델의 성능 향상에 있어 어떤 사전학습 전략이 가장 우수한 성능를 내는가?
RQ4제안된 새로운 RGB+D 그리스 수어 데이터셋은 기존 데이터셋에 비해 엔드 투 엔드 인식 지원 능력에서 어떤 수준의 품질을 제공하는가?
RQ5수동 분할 없이도 연속적인 영상 스트림을 고황 수준의 출력으로 효과적으로 매핑할 수 있는가?

주요 결과

제안된 시퀀스 학습 기준은 다양한 데이터셋에서 인식 성능를 크게 향상시켜 시퀀스 수준 최적화의 효과성을 입증한다.
새로운 그리스 수어용 RGB+D 데이터셋은 영상 촬영에 문장 수준와 고황 수준의 주석이 모두 포함된 첫 번째 공개 가능한 자료를 제공한다.
특히 자기주도 학습 및 대비 학습 방법을 포함한 사전학습 전략은 무작위 초기화 대비 인식 정확도 향상에 상당한 기여를 한다.
새로운 기준으로 훈련된 엔드 투 엔드 모델은 벤치마크 데이터셋에서 최신 기술 수준의 성능를 달성하며, 이전 방법들보다 고황 수준 예측에서 뛰어난 성능를 보인다.
새로운 데이터셋에 포함된 깊이 데이터는 공간 모델링을 향상시켜 복잡한 수어 인식 작업에서 더 나은 성능를 기여한다.
비분할 영상에서 고황으로의 직접 매핑이 적절한 시퀀스 모델링과 사전학습 전략과 결합될 경우 실현 가능하고 효과적임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.