[论文解读] HaGRID - HAnd Gesture Recognition Image Dataset
HaGRID 是一个大规模、多样化的 RGB 图像数据集,用于手势识别,包含 18 种手势类别和一个无手势类别,带有边界框标注,来自 37,583 名主体、超过 550,000 张图像,旨在支持检测与分类以及 HGR 模型的预训练。
This paper introduces an enormous dataset, HaGRID (HAnd Gesture Recognition Image Dataset), to build a hand gesture recognition (HGR) system concentrating on interaction with devices to manage them. That is why all 18 chosen gestures are endowed with the semiotic function and can be interpreted as a specific action. Although the gestures are static, they were picked up, especially for the ability to design several dynamic gestures. It allows the trained model to recognize not only static gestures such as "like" and "stop" but also "swipes" and "drag and drop" dynamic gestures. The HaGRID contains 554,800 images and bounding box annotations with gesture labels to solve hand detection and gesture classification tasks. The low variability in context and subjects of other datasets was the reason for creating the dataset without such limitations. Utilizing crowdsourcing platforms allowed us to collect samples recorded by 37,583 subjects in at least as many scenes with subject-to-camera distances from 0.5 to 4 meters in various natural light conditions. The influence of the diversity characteristics was assessed in ablation study experiments. Also, we demonstrate the HaGRID ability to be used for pretraining models in HGR tasks. The HaGRID and pretrained models are publicly available.
研究动机与目标
- 为设备控制任务提供多样化、高变异度的 HGR 数据集的必要性提供动机。
- 引入 HaGRID,包含 18 个符号化/静态手势和一个无手势类别,以在背景、光照和距离变化时实现鲁棒的检测和分类。
- 通过众包、边界框标注和消融研究来展示数据集创建过程,并评估异质性效应。
- 展示 HaGRID 在 HGR 模型的预训练以及从静态 基元构建动态手势方面的实用性。
提出的方法
- 描述四阶段数据集创建流程:挖掘、验证、筛选和标注。
- 在 Yandex.Toloka 与 ABC Elementary 上进行众包,以收集丰富的真实世界场景。
- 以 COCO 格式提供手部检测和静态手势分类的边界框标注;当存在第二只手时,额外包含一个无手势类别。
- 在多种体系结构上开展手部检测和手势分类的基线实验,并提出从静态手势推导动态手势的方法。
- 通过消融研究,改变数据量、主体多样性、亮度和距离,评估对模型性能的影响。
实验结果
研究问题
- RQ1高异质性(主体、场景、照明、距离等)如何影响 HGR 泛化?
- RQ2HaGRID 能否在现实场景中实现鲁棒的手部检测和静态手势分类?
- RQ3HaGRID 对于在相关数据集上进行 HGR 模型的预训练和微调有何帮助?
- RQ4如何在 HaGRID 内从静态手势构建动态手势以实现实时交互?
- RQ5数据集规模与多样性对分类和检测任务的模型性能有何影响?
主要发现
| 模型 | 模型大小(MB) | 参数量(M) | 推理时间(ms) | F1 分数 | mAP |
|---|---|---|---|---|---|
| ResNet-18 | 89.6 | 11.2 | 49.25 | 97.5 | - |
| ResNet-152 | 466.5 | 58.3 | 292.6 | 95.5 | - |
| ResNeXt-50 | 184.6 | 23.2 | 135.6 | 98.3 | - |
| ResNeXt-101 | 696.4 | 87 | 397.2 | 97.5 | - |
| MobileNetV3 small | 12.5 | 1.6 | 10.6 | 86.4 | - |
| MobileNetV3 large | 34 | 4.3 | 33.4 | 91.9 | - |
| ViTB16 | 686.6 | 85.9 | 325.5 | 91.1 | - |
| RetinaNet ResNet-50 | 294.2 | 38.2 | 235 | - | 79.1 |
| SSDLite MobileNetV3 small | 9.4 | 1.9 | 30.7 | - | 57.7 |
| SSDLite MobileNetV3 large | 20 | 3.4 | 52.5 | - | 71.6 |
| YoloV7 tiny | 49 | 6 | 14.4 | - | 71.6 |
- HaGRID 包含超过 550k 张图像、18 种手势类别,以及一个无手势类别,数据来自 37,583 名主体和 37,583 个场景。
- 为每张图像中的手提供边界框标注,便于检测和全帧手势分类。
- 基线实验在多种架构下对手部检测和手势分类任务均表现出竞争力(示例包括 ResNet、ResNeXt、MobileNetV3、ViT、RetinaNet 以及 YOLO 变体)。
- 消融研究表明,增加数据量和主体多样性可以提升性能,但对于分类在大约 23k 样本/类别后收益递减;对于检测则持续收益。
- HaGRID 可用于预训练,并对相关数据集如 OUHANDS 的微调产生有益影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。