[論文レビュー] A Real-time Hand Gesture Recognition and Human-Computer Interaction System
リアルタイムのジェスチャー強調HCIシステムで、 monocular camera 入力上の CNN (modified LeNet-5) を用いて 16 の静的ジェスチャを高精度で認識し、Kalman-filtered なマウス制御と単純な確率的応答方式を追加。ROSベースの HRI 拡張も実証。
In this project, we design a real-time human-computer interaction system based on hand gesture. The whole system consists of three components: hand detection, gesture recognition and human-computer interaction (HCI) based on recognition; and realizes the robust control of mouse and keyboard events with a higher accuracy of gesture recognition. Specifically, we use the convolutional neural network (CNN) to recognize gestures and makes it attainable to identify relatively complex gestures using only one cheap monocular camera. We introduce the Kalman filter to estimate the hand position based on which the mouse cursor control is realized in a stable and smooth way. During the HCI stage, we develop a simple strategy to avoid the false recognition caused by noises - mostly transient, false gestures, and thus to improve the reliability of interaction. The developed system is highly extendable and can be used in human-robotic or other human-machine interaction scenarios with more complex command formats rather than just mouse and keyboard events.
研究の動機と目的
- 単眼カメラを用いた実-time、低コストのジェスチャーベースHCIを動機づける。
- 画像データから特徴を直接学習するCNNベースのジェスチャ認識器を開発する。
- 追加のマーカーなしで追跡された手の点を介して安定したマウスカーソル制御を可能にする。
- 単純な確率的スキームによって一時的な偽ジェスチャを拒否し、ドラッグなどの継続動作を安定化させる。
- ROSメッセージを用いたHRIへシステムを拡張する。
提案手法
- 前処理済みの二値手画像を処理するCNN分類器(modified LeNet-5)を用いて、16の静的ジェスチャを高精度で認識する。
- 背景差分、カラー濾過、ガウシアンブラー、しきい値処理、形態学処理、等高線抽出、手領域の分離を含む手検出; 距離変換で手の中心を識別する。
- 凸欠陥検出を改善するための多角形近似(Ramer-Douglas-Peucker)。
- 手のひらベースのジェスチャの最上部、通常は中指先端を追跡してマウスカーソルを駆動する;カルマンフィルタでカーソル運動を平滑化する。
- 反応期間中の単純な確率的識別関数により、瞬間的な偽ジェスチャに反応しないようにし、ドラッグのような保持動作を安定化させる。
- 64x64 のCNN入力サイズが学習率 0.0001 とモーメンタム 0.9 で最良の性能を示し、テストセットで 99.8% 以上の精度に到達する。
実験結果
リサーチクエスチョン
- RQ1ノイズのある monocular カメラ入力で訓練した CNN は、最小限の前処理で高精度の静的ジェスチャ認識を達成できるか。
- RQ2Kalman-filtered な追跡点はマーカーなしで安定した滑らかなマウスカーソル制御を提供できるか。
- RQ3単純な確率的決定方式は、持続的なコマンドを保持しつつ、瞬間的な偽ジェスチャを信頼性を欠く形で抑制できるか。
- RQ4ジェスチャーベースのHCIフレームワークをROSベースの人間- robot との相互作用シナリオへ拡張できるか。
主な発見
- ジェスチャセットは 16 静的ジェスチャからなり、5名の被験者から 19,852 サンプルを収集。
- 64x64 入力サイズの CNN 認識はテストセットで 99.8% 以上の精度を達成。
- Kalman フィルタは横方向/垂直方向の動作中にマウスカーソルの滑らかさを向上させる。
- 単純な確率的応答モデルは瞬間的な偽ジェスチャを効果的に拒否し、ドラッグのような保持動作を保持する。
- システムデモにはキーボード/マウスイベントのトリガーと、ROSトピックを介したシミュレートロボット( turtle )の ROS-based 制御が含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。