QUICK REVIEW

[논문 리뷰] HaGRID - HAnd Gesture Recognition Image Dataset

Alexander Kapitanov, Karina Kvanchiani|arXiv (Cornell University)|2022. 06. 16.

Hand Gesture Recognition Systems인용 수 35

한 줄 요약

HaGRID는 탐지 및 분류 및 HGR 모델의 사전 학습을 지원하기 위해 바운딩 박스로 주석된 18개의 제스처 클래스와 제스처 없음(no-gesture) 클래스를 포함하는 대규모의 다양하고 다양한 RGB 이미지 데이터셋이다. 37,583명의 피험자에서 550k+장의 이미지를 수집했으며 탐지 및 분류를 지원한다.

ABSTRACT

This paper introduces an enormous dataset, HaGRID (HAnd Gesture Recognition Image Dataset), to build a hand gesture recognition (HGR) system concentrating on interaction with devices to manage them. That is why all 18 chosen gestures are endowed with the semiotic function and can be interpreted as a specific action. Although the gestures are static, they were picked up, especially for the ability to design several dynamic gestures. It allows the trained model to recognize not only static gestures such as "like" and "stop" but also "swipes" and "drag and drop" dynamic gestures. The HaGRID contains 554,800 images and bounding box annotations with gesture labels to solve hand detection and gesture classification tasks. The low variability in context and subjects of other datasets was the reason for creating the dataset without such limitations. Utilizing crowdsourcing platforms allowed us to collect samples recorded by 37,583 subjects in at least as many scenes with subject-to-camera distances from 0.5 to 4 meters in various natural light conditions. The influence of the diversity characteristics was assessed in ablation study experiments. Also, we demonstrate the HaGRID ability to be used for pretraining models in HGR tasks. The HaGRID and pretrained models are publicly available.

연구 동기 및 목표

디바이스 제어 작업에 적합한 다양한 고변이성 HGR 데이터셋의 필요성을 동기 부여한다.
배경, 조명, 거리 전반에서 강인한 탐지 및 분류를 가능하게 하는 18개의 기호/정지 제스처와 제스처 없음 클래스를 포함한 HaGRID를 소개한다.
다양성 이질성의 영향 평가를 위한 광대역 데이터 생성, 바운딩박스 주석, 그리고 소거 연구를 통해 데이터셋 구축을 시연한다.
정적 프리미티브로부터 동적 제스처를 구성하고 HGR 모델의 사전 학습에 HaGRID의 활용성을 보여준다.

제안 방법

마이닝, 검증, 여과, 주석의 네 단계 데이터셋 생성 파이프라인을 설명한다.
Yandex.Toloka와 ABC Elementary에서 다양한 실제 장면을 수집하기 위한 크라우드소싱.
손 탐지 및 정적 제스처 분류를 위한 COCO 형식의 바운딩 박스 주석, 존재하는 경우 두 번째 손에 대한 추가 제스처 없음 클래스 포함.
손 탐지 및 제스처 분류를 위한 다수의 아키텍처에 대한 기본 실험을 제공하고, 정적 제스처로부터 동적 제스처를 도출하는 접근법도 제시한다.
데이터 양, 피험자 다양성, 밝기, 거리 등을 다양하게 변화시키는 소거 연구를 수행하여 모델 성능에 미치는 영향을 평가한다.

실험 결과

연구 질문

RQ1피험자, 장면, 조명, 거리의 높은 이질성이 HGR 일반화에 어떤 영향을 미치는가?
RQ2HaGRID가 실제 환경에서 강인한 손 탐지 및 정적 제스처 분류를 지원할 수 있는가?
RQ3관련 데이터셋에서 HGR 모델의 사전 학습 및 미세 조정에 HaGRID의 유용성은 무엇인가?
RQ4실시간 상호작용을 위해 HaGRID 내에서 정적 제스처로부터 동적 제스처를 어떻게 구성할 수 있는가?
RQ5데이터셋의 크기와 다양성이 분류 및 탐지 작업 모두에서 모델 성능에 미치는 영향은 무엇인가?

주요 결과

모델	모델 크기 (MB)	매개변수 (M)	추론 시간 (ms)	F1-점수	mAP
ResNet-18	89.6	11.2	49.25	97.5	-
ResNet-152	466.5	58.3	292.6	95.5	-
ResNeXt-50	184.6	23.2	135.6	98.3	-
ResNeXt-101	696.4	87	397.2	97.5	-
MobileNetV3 small	12.5	1.6	10.6	86.4	-
MobileNetV3 large	34	4.3	33.4	91.9	-
ViTB16	686.6	85.9	325.5	91.1	-
RetinaNet ResNet-50	294.2	38.2	235	-	79.1
SSDLite MobileNetV3 small	9.4	1.9	30.7	-	57.7
SSDLite MobileNetV3 large	20	3.4	52.5	-	71.6
YoloV7 tiny	49	6	14.4	-	71.6

HaGRID는 550k장을 넘는 이미지, 18개의 제스처 클래스, 제스처 없음 클래스를 포함하고, 37,583명의 피험자에서 37,583개의 장면에 걸쳐 수집되었습니다.
모든 이미지에 손에 대한 바운딩 박스 주석이 제공되어 탐지 및 전체 프레임 제스처 분류를 가능하게 합니다.
다수의 아키텍처에서 손 탐지 및 제스처 분류 작업 모두에서 경쟁력 있는 성능을 보이는 기본 실험들(예: ResNet, ResNeXt, MobileNetV3, ViT, RetinaNet, YOLO 계열)을 보여준다.
소거 연구는 데이터 양과 피험자 다양성의 증가가 성능을 높이나, 분류의 경우 클래스당 약 23k 샘플을 넘으면 수익이 감소하고 탐지의 경우 계속 이득이 있음을 보여준다.
HaGRID는 OUHANDS 같은 관련 데이터셋에서 미세 조정에 유리한 효과를 얻는 사전 학습에 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.