QUICK REVIEW

[논문 리뷰] Real-time Sign Language Fingerspelling Recognition using Convolutional Neural Networks from Depth map

Byeongkeun Kang, Subarna Tripathi|arXiv (Cornell University)|2015. 09. 10.

Hand Gesture Recognition Systems참고 문헌 10인용 수 23

한 줄 요약

이 논문은 깊이 맵을 사용하여 고정밀도와 고속도를 달성하기 위해 컨volutional 신경망(CNN)으로 훈련된 실시간 수어 손가락 문자 인식 시스템을 제안한다. 이 시스템은 31개의 알파벳과 숫자를 인식하며, 훈련된 사용자에 대해서는 99.99%의 정확도를 달성하고, 새로운 사용자에 대해서는 83.58–85.49%의 정확도를 기록한다. 이미지를 처리하는 데 단지 3ms가 소요되어, 깊이 데이터만을 사용하는 이 업적에 비해 가장 높은 정확도와 빠른 속도를 기록한 시스템이다.

ABSTRACT

Sign language recognition is important for natural and convenient communication between deaf community and hearing majority. We take the highly efficient initial step of automatic fingerspelling recognition system using convolutional neural networks (CNNs) from depth maps. In this work, we consider relatively larger number of classes compared with the previous literature. We train CNNs for the classification of 31 alphabets and numbers using a subset of collected depth data from multiple subjects. While using different learning configurations, such as hyper-parameter selection with and without validation, we achieve 99.99% accuracy for observed signers and 83.58% to 85.49% accuracy for new signers. The result shows that accuracy improves as we include more data from different subjects during training. The processing time is 3 ms for the prediction of a single image. To the best of our knowledge, the system achieves the highest accuracy and speed. The trained model and dataset is available on our repository.

연구 동기 및 목표

청각 장애인과 听覚 장애가 없는 사람 간의 소통을 향상시키기 위해 실시간으로 고정밀도로 미국 수어(ASL) 손가락 문자를 자동으로 인식할 수 있는 시스템을 개발하는 것.
특히 엄지 위치의 차이만 있는 수어 간의 시각적 유사성 문제를 깊이 데이터를 활용하여 해결하여 정확도를 향상시키는 것.
기존의 24개 클래스보다 더 많은 31개 클래스(26개의 영문자와 10개의 숫자)를 분류함으로써 기존 연구를 확장하여 실용성을 높이는 것.
다양한 수어 사용자에 대해 일반화 능력을 평가하기 위해 여러 주체를 대상으로 훈련하고, 새로운 사용자에 대해 테스트하는 것.
색상 이미지나 校정을 제거하고 깊이 맵만을 사용함으로써 다양한 조명 조건과 피부 색소에 대한 일관성과 강인성을 향상시키는 것.

제안 방법

다양한 주체로부터 촬영한 깊이 맵을 기반으로 31개의 정적 손가락 문자 제스처(A–Z, 0–9)를 분류하기 위해 깊은 CNN을 훈련하는 것.
ImageNet(ILSVRC2012)에서 사전 훈련한 후 깊이 기반 손가락 문자 데이터셋에서 미세 조정(fine-tuning)을 수행함으로써 전이 학습(transfer learning)을 활용하는 것.
일반화 능력을 확보하기 위해 주체별로 분리된 훈련, 검증, 테스트 세트를 사용한 데이터 증강 및 교차 검증을 수행하는 것.
다양한 훈련 설정에서 성능 향상을 비교하기 위해 재학습(re-training)과 미세 조정(fine-tuning) 전략을 모두 구현하는 것.
검증을 사용하거나 사용하지 않는 조건에서 초모델 하이퍼파라미터를 최적화하여 일반화 및 정확도에 미치는 영향을 평가하는 것.
가벼운 CNN 아키텍처를 사용한 단일 프레임 추론 파이프라인을 구현하여 GPU에서 이미지당 3ms의 실시간 성능을 달성하는 것.

실험 결과

연구 질문

RQ1깊이 맵 전용으로 훈련된 CNN 기반 시스템이 31개의 정적 ASL 손가락 문자 제스처를 높은 정확도로 인식할 수 있는가?
RQ2훈련 세트에 포함되지 않은 수어 사용자에 대해 시스템 성능가 어떻게 변하는가? 일반화 능력을 향상시키는 요소는 무엇인가?
RQ3ImageNet에서 사전 훈련된 모델에서 미세 조정을 수행하는 것이 재학습보다 깊이 기반 손가락 문자 인식 성능 향상에 기여하는가?
RQ4훈련에 사용된 주체 수가 늘어날수록 새로운 사용자에 대한 인식 정확도는 어떻게 변화하는가?
RQ5깊이 데이터만을 사용하는 입력 방식이 색상 校정을 제거하고 조명 및 피부 색소 변화에 대한 강인성을 향상시키는가?

주요 결과

동일한 주체에서 훈련 및 테스트를 수행한 경우 시스템은 훈련 분포에서 놀라운 성능을 보이며 99.99%의 정확도를 달성했다.
새로운 사용자에 대해선 미세 조정을 통해 83.58%에서 85.49%의 정확도를 기록했으며, 재학습 대비 7–8% 향상된 성능을 보였다.
훈련 주체 수를 3명에서 4명으로 늘였을 때 정확도가 2–3% 향상되어 더 다양한 데이터로 인해 일반화 능력이 향상됨을 확인했다.
Nvidia GeForce GTX Titan에서 각 깊이 이미지를 3ms 내로 처리하여 실시간 추론이 가능했다.
이전 최고 수준의 방법들보다 뛰어난 성능을 보였으며, 특히 더 많은 클래스(31개)를 다루고 새로운 사용자에 대한 일반화 능력에서 뛰어났다.
가장 낮은 성능을 보인 문자들(E, M, N, T)은 엄지 위치의 미세한 차이로 인해 항상 어려움을 겪었으며, 데이터셋 내에서 지속적인 시각적 모호성이 존재함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.