QUICK REVIEW

[논문 리뷰] Survey on Hand Gesture Recognition from Visual Input

Manousos Linardakis, Iraklis Varlamis|ArXiv.org|2025. 01. 21.

Hand Gesture Recognition Systems인용 수 4

한 줄 요약

이 논문은 최근 시각 입력 기반의 손 제스처 인식 연구(2018–2024)를 조사하며 RGB, 깊이, 비디오 데이터, 데이터셋, 방법 및 실제 세계의 도전을 다룬다.

ABSTRACT

Hand gesture recognition has become an important research area, driven by the growing demand for human-computer interaction in fields such as sign language recognition, virtual and augmented reality, and robotics. Despite the rapid growth of the field, there are few surveys that comprehensively cover recent research developments, available solutions, and benchmark datasets. This survey addresses this gap by examining the latest advancements in hand gesture and 3D hand pose recognition from various types of camera input data including RGB images, depth images, and videos from monocular or multiview cameras, examining the differing methodological requirements of each approach. Furthermore, an overview of widely used datasets is provided, detailing their main characteristics and application domains. Finally, open challenges such as achieving robust recognition in real-world environments, handling occlusions, ensuring generalization across diverse users, and addressing computational efficiency for real-time applications are highlighted to guide future research directions. By synthesizing the objectives, methodologies, and applications of recent studies, this survey offers valuable insights into current trends, challenges, and opportunities for future research in human hand gesture recognition.

연구 동기 및 목표

입력 데이터 유형, 캡처 설정 및 인식 작업별로 손 제스처 인식 연구를 정리한다.
데이터셋 및 응용 분야를 조사하고 특징과 한계를 강조한다.
시각 입력 손 제스처 인식의 현재 추세, 도전 과제 및 향후 연구 기회를 식별한다.
분류와 추정 작업 간의 차이 및 단안과 다중 시점(multiview) 설정 간 차이를 구분한다.

제안 방법

입력 데이터 유형(RGB, RGB-D, 비디오) 및 카메라 설치(단안 대 다뷰)별로 방법을 분류한다.
손 제스처의 분류와 추정을 구분하고 두 가지를 결합하는 하이브리드 접근법을 주목한다.
손 캡처 표현(스켈레톤 기반 vs 박스/필터 기반)과 각 이점에 대해 검토한다.
인식 기술(신경망, 비신경망 방법 및 하이브리드)을 검토하고 그 보급 현황을 파악한다.
주제 모델링(NNMF)을 사용하여 실시간 인식과 다중 모달 융합과 같은 주요 연구 주제를 파악한다.

실험 결과

연구 질문

RQ1시각 입력 손 제스처 인식에 사용되는 지배적인 입력 데이터 유형과 캡처 설정은 무엇인가?
RQ2현재 접근 방식에서 손 제스처는 어떻게 표현되고 분류되거나 추정되는가?
RQ3일련의 연구에서 지배적인 인식 기법과 성능 경향은 무엇인가?
RQ4최근 HGR 연구를 이끄는 데이터셋과 응용 분야는 무엇이며, 실제 적용을 위한 남은 도전 과제는 무엇인가?
RQ5최근 손 제스처 인식 연구에서 핵심 주제로 부상하는 주제와 향후 방향은 무엇인가?

주요 결과

비디오 기반 방법은 연구의 가장 큰 비중을 차지한다(대략 절반).
단안 카메라가 실용성으로 우세하며 다중 뷰 설정은 적다.
하이브리드 신경망 접근법(예: CNN과 LSTM 또는 트랜스포머)이 보편적이고 효과적이다.
스켈레톤 기반 표현은 정확한 관절 표현을 제공하지만 계산 비용이 높고, 박스/필터 기반 방법은 분류 작업에서 더 간단하고 일반적이다.
NNMF 기반 토픽 모델링은 핵심 주제로 손 제스처 분류, 추정, 수화 인식, 손/몸 재구성, 다중 모달 융합, 실시간 인식을 식별한다.
2024년에 출판물이 눈에 띄게 증가했고, 관심과 발전이 증가하고 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.