Skip to main content
QUICK REVIEW

[論文レビュー] THETA: Triangulated Hand-State Estimation for Teleoperation and Automation in Robotic Hand Control

Ming Huang, Akshay Karthik|arXiv (Cornell University)|Jan 12, 2026
Hand Gesture Recognition Systems被引用数 0
ひとこと要約

THETA は三つの同期ウェブカメラと DeepLabV3/MobileNetV2 パイプラインを用いて多視点RGB画像から指関節角度を推定し、リアルタイムで低コストなロボット手(DexHand)のテレオペレーションを実現する。

ABSTRACT

The teleoperation of robotic hands is limited by the high costs of depth cameras and sensor gloves, commonly used to estimate hand relative joint positions (XYZ). We present a novel, cost-effective approach using three webcams for triangulation-based tracking to approximate relative joint angles (theta) of human fingers. We also introduce a modified DexHand, a low-cost robotic hand from TheRobotStudio, to demonstrate THETA's real-time application. Data collection involved 40 distinct hand gestures using three 640x480p webcams arranged at 120-degree intervals, generating over 48,000 RGB images. Joint angles were manually determined by measuring midpoints of the MCP, PIP, and DIP finger joints. Captured RGB frames were processed using a DeepLabV3 segmentation model with a ResNet-50 backbone for multi-scale hand segmentation. The segmented images were then HSV-filtered and fed into THETA's architecture, consisting of a MobileNetV2-based CNN classifier optimized for hierarchical spatial feature extraction and a 9-channel input tensor encoding multi-perspective hand representations. The classification model maps segmented hand views into discrete joint angles, achieving 97.18% accuracy, 98.72% recall, F1 Score of 0.9274, and a precision of 0.8906. In real-time inference, THETA captures simultaneous frames, segments hand regions, filters them, and compiles a 9-channel tensor for classification. Joint-angle predictions are relayed via serial to an Arduino, enabling the DexHand to replicate hand movements. Future research will increase dataset diversity, integrate wrist tracking, and apply computer vision techniques such as OpenAI-Vision. THETA potentially ensures cost-effective, user-friendly teleoperation for medical, linguistic, and manufacturing applications.

研究の動機と目的

  • 深度カメラとセンサグローブを用いた指関節追跡の高コスト性とアクセス性の課題に対処する。
  • 三つのウェブカメラと三角測量を用いた低コスト、リアルタイムの手状態推定パイプラインを開発する。
  • 推定された関節角度で DexHand ロボット手を制御し、エンドツーエンドのテレオペレーションを実証する。

提案手法

  • 三つの 640x480p ウェブカメラを120度間隔で配置し、同期したマルチビュー RGB データを収集する。
  • インデックス・中指・薬指・小指の MCP、PIP、DIP のグラウンド-truth 角度をアノテーションし、40 ポーズにわたる gesture_angles.csv を作成する。
  • DeepLabV3-ResNet-50 のバックボーンで手領域をセグメント化し、HSV フィルタリングで手領域を抽出する。
  • セグメント化されたビューを 9 チャンネルのマルチビュー入力として処理する MobileNetV2 ベースの分類器に入力し、10 種類の角度クラスに対して 15 個の関節角度ビンを予測する。
  • クラス不均衡を扱うために温度付きソフトマックスと焦点損失で出力を較正し、Adam と転移学習で学習する。
  • 予測された関節角度を直列送信して Arduino で DexHand をリアルタイムに駆動する。
Figure 1: Assembled DexHand (with personal modifications)
Figure 1: Assembled DexHand (with personal modifications)

実験結果

リサーチクエスチョン

  • RQ1低コストのマルチビュー視覚システムは、指関節の高精度な角度推定をリアルタイムで達成できるか。
  • RQ2セグメント化されたマルチビュー手ビューを、テレオペレーションの効率性を維持しつつ、離散的な関節角度ビンへ最も適したアーキテクチャは何か。
  • RQ3未知のジェスチャに対する THETA パイプラインの、照明条件の変動下での精度・適合率・再現率・F1 における性能はどうか。

主な発見

  • モデルは未知データに対して 97.18% のテスト精度を達成。
  • Precision は 0.8906、Recall は 0.9872、F1 スコアは 0.9274。
  • トレーニング精度は 97.50%、検証精度は 97.03%、損失は 0.0001 へ収束。
  • パイプラインは DexHand 上でのリアルタイム関節角度推論と低遅延なロボット作動を実現。
  • DexHand は THETA 予測を用いて指の動作をリアルタイムに再現できる低コスト(約 $250)のロボット手である。
Figure 2: ROS 2-Arduino Joint Angle Transmission pipeline for robotic hand servos actuation.
Figure 2: ROS 2-Arduino Joint Angle Transmission pipeline for robotic hand servos actuation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。