[論文レビュー] HaGRID - HAnd Gesture Recognition Image Dataset
HaGRID は、18 のジェスチャークラスに加えノー ジェスチャークラスを含む、手のジェスチャ認識用の大規模で多様な RGB 画像データセットです。検出と分類をサポートし、HGRモデルの事前学習のために、37,583 名の被験者から550k超の画像を収集しています。
This paper introduces an enormous dataset, HaGRID (HAnd Gesture Recognition Image Dataset), to build a hand gesture recognition (HGR) system concentrating on interaction with devices to manage them. That is why all 18 chosen gestures are endowed with the semiotic function and can be interpreted as a specific action. Although the gestures are static, they were picked up, especially for the ability to design several dynamic gestures. It allows the trained model to recognize not only static gestures such as "like" and "stop" but also "swipes" and "drag and drop" dynamic gestures. The HaGRID contains 554,800 images and bounding box annotations with gesture labels to solve hand detection and gesture classification tasks. The low variability in context and subjects of other datasets was the reason for creating the dataset without such limitations. Utilizing crowdsourcing platforms allowed us to collect samples recorded by 37,583 subjects in at least as many scenes with subject-to-camera distances from 0.5 to 4 meters in various natural light conditions. The influence of the diversity characteristics was assessed in ablation study experiments. Also, we demonstrate the HaGRID ability to be used for pretraining models in HGR tasks. The HaGRID and pretrained models are publicly available.
研究の動機と目的
- デバイス制御タスクに適した高変動性で多様な HGR データセットの必要性を動機付ける。
- 背景、照明、距離を跨いで頑健な検出と分類を可能にするよう、18 個の半符号/静的ジェスチャーとノー ジェスチャークラスを持つ HaGRID を導入する。
- クラウドソーシング、境界ボックス注釈、そして異質性の影響を評価するアブレーション研究を通じてデータセット作成をデモンストレーションする。
- HaGRID の手話モデルの事前学習と静的プリミティブから動的ジェスチャーを構築する有用性を示す。
提案手法
- 4 段階のデータセット作成パイプラインを説明する:マイニング、検証、濾過、注釈。
- Yandex.Toloka と ABC Elementary で多様な実世界の場面を収集するクラウドソース。
- COCO 形式の境界ボックス注釈を手の検出と静的ジェスチャー分類のために提供し、第二の手がある場合はノー ジェスチャークラスを追加。
- 複数のアーキテクチャに対する手検出とジェスチャー分類のベースライン実験、静的ジェスチャーから動的ジェスチャーを導出するアプローチを提示。
- データ量、被験者多様性、明るさ、距離を変化させたアブレーション研究を実施し、モデル性能への影響を評価。
実験結果
リサーチクエスチョン
- RQ1被験者・場面・照明・距離の高い異質性は HGR の一般化にどのように影響するか?
- RQ2HaGRID は実世界の設定で頑健な手検出と静的ジェスチャー分類をサポートできるか?
- RQ3HaGRID は関連データセットでの HGR モデルの事前学習とファインチューニングにどれだけ有用か?
- RQ4リアルタイムの相互作用のために HaGRID から静的ジェスチャーを用いて動的ジェスチャーを構築するにはどうすればよいか?
- RQ5データセットのサイズと多様性は分類と検出のタスク双方のモデル性能にどのような影響を与えるか?
主な発見
| モデル | モデルサイズ (MB) | パラメータ数 (M) | 推論時間 (ms) | F1-スコア | mAP |
|---|---|---|---|---|---|
| ResNet-18 | 89.6 | 11.2 | 49.25 | 97.5 | - |
| ResNet-152 | 466.5 | 58.3 | 292.6 | 95.5 | - |
| ResNeXt-50 | 184.6 | 23.2 | 135.6 | 98.3 | - |
| ResNeXt-101 | 696.4 | 87 | 397.2 | 97.5 | - |
| MobileNetV3 small | 12.5 | 1.6 | 10.6 | 86.4 | - |
| MobileNetV3 large | 34 | 4.3 | 33.4 | 91.9 | - |
| ViTB16 | 686.6 | 85.9 | 325.5 | 91.1 | - |
| RetinaNet ResNet-50 | 294.2 | 38.2 | 235 | - | 79.1 |
| SSDLite MobileNetV3 small | 9.4 | 1.9 | 30.7 | - | 57.7 |
| SSDLite MobileNetV3 large | 20 | 3.4 | 52.5 | - | 71.6 |
| YoloV7 tiny | 49 | 6 | 14.4 | - | 71.6 |
- HaGRID には 550k 超の画像、18 のジェスチャークラス、およびノー ジェスチャークラスが含まれ、37,583 名の被験者から 37,583 のシーンを横断して収集された。
- すべての画像に対して手の境界ボックス注釈が提供され、検出と全フレームのジェスチャー分類の両方を可能にする。
- 複数のアーキテクチャで手検出とジェスチャー分類の両タスクにおいて競争力のある性能を示すベースライン実験(ResNet、ResNeXt、MobileNetV3、ViT、RetinaNet、YOLO 変種などの例を含む)。
- データ量と被験者多様性を増やすアブレーション研究は性能を改善することを示し、分類ではクラスあたり約2.3万サンプルを超えると収益が逓減、検出では引き続く改善が見られる。
- HaGRID は OUHANDS など関連データセットでの事前学習と有益なファインチューニング効果に利用できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。