Skip to main content
QUICK REVIEW

[論文レビュー] UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

Zhenhao Zhang, Jiaxin Liu|arXiv (Cornell University)|Feb 28, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

UniHMは、複数の形態にまたがる動的な巧手ハンド操作のための統一的で言語条件付けられたフレームワークを、形態依存性を問わないトークンコードブック、ビジョン-言語モデル、および物理 Guided refinement を用いて、オープンボキャブラリ指示から実行可能な操作系列を生成する。

ABSTRACT

Planning physically feasible dexterous hand manipulation is a central challenge in robotic manipulation and Embodied AI. Prior work typically relies on object-centric cues or precise hand-object interaction sequences, foregoing the rich, compositional guidance of open-vocabulary instruction. We introduce UniHM, the first framework for unified dexterous hand manipulation guided by free-form language commands. We propose a Unified Hand-Dexterous Tokenizer that maps heterogeneous dexterous-hand morphologies into a single shared codebook, improving cross-dexterous hand generalization and scalability to new morphologies. Our vision language action model is trained solely on human-object interaction data, eliminating the need for massive real-world teleoperation datasets, and demonstrates strong generalizability in producing human-like manipulation sequences from open-ended language instructions. To ensure physical realism, we introduce a physics-guided dynamic refinement module that performs segment-wise joint optimization under generative and temporal priors, yielding smooth and physically feasible manipulation sequences. Across multiple datasets and real-world evaluations, UniHM attains state-of-the-art results on both seen and unseen objects and trajectories, demonstrating strong generalization and high physical feasibility. Our project page at \href{https://unihm.github.io/}{https://unihm.github.io/}.

研究の動機と目的

  • オープンボキャブラリな動的巧手ハンド操作を、静止グリップを超えて動機づける。
  • 跨手一般化を可能にする形態非依存トークン化方式を提案する。
  • 言語と知覚データに条件づけられた操作系列を生成するビジョン-言語モデルを開発する。
  • 軌道の物理的実現性を保証する物理ガイド付き動的精緻化を組み込む。
  • 広範な評価を通じて、未見の物体・形態・タスクへの堅牢な一般化を実証する。

提案手法

  • 共通の離散アクション格子へ多様な手ポーズをマッピングする共有VQ-VAEコードブックを備えるUnified Hand-Dexterous Tokenizerを導入する。
  • RGB-Dと言語からターゲット軌道を推定する CLIPort風の知覚ヘッドを持つビジョン-言語モデルを用い、トークンベースの系列生成を行う。
  • 参照エンコーダへ知識蒸留で新しい手形態を訓練・整合させ、跨巧手トークンの再利用と形態特異的デコーダでのデコードを可能とする。
  • 接触、生成事前情報、時系列事前情報を用いて各フレームを最適化するGauss-Newtonフレームワークによる物理的実現性を考慮した物理ガイド付き動的精緻化を適用する。
  • 人間ビデオからHOIシーケンスを注釈し、Dex-RetargetingでMANOポーズを様々な巧手へ写像し、エネルギーに基づく制約で軌道を洗練させる。
Figure 1: Overview. We introduce UniHM, the first unified hand-manipulation framework conditioned on free-form language. UniHM is trained solely on closed-set HOI datasets to follow target trajectories and execute physically feasible interactions, and generalizes to open-world tasks in real-world in
Figure 1: Overview. We introduce UniHM, the first unified hand-manipulation framework conditioned on free-form language. UniHM is trained solely on closed-set HOI datasets to follow target trajectories and execute physically feasible interactions, and generalizes to open-world tasks in real-world in

実験結果

リサーチクエスチョン

  • RQ1オープンボキャ vocabulary な言語指示を用いて、異なる手形態に跨る動的で複数ステップの巧手ハンド操作軌道を生成できるか。
  • RQ2形態非依存コードブックは、跨手一般化と移行を効果的に可能にするか。
  • RQ3物理ガイド付きの精緻化は、生成された操作系列の時間的滑らかさと物理的実現性をどれだけ改善するか。
  • RQ4人間のHOIビデオから学習することで、費用の高い遠隔操作データを削減しつつ、未見の物体・タスクへの一般化を維持できるか。

主な発見

MethodMPJPE ↓FOL ↓FPL ↓FID ↓Diversity →
Ours (DexYCB Seen)61.40 ${}^{\pm1.93}$23.14 ${}^{\pm0.65}$12.15 ${}^{\pm0.24}$31.24 ${}^{\pm1.02}$39.62 ${}^{\pm0.66}$
Ours (OakInk Seen)52.73 ${}^{\pm2.08}$72.32 ${}^{\pm0.55}$19.86 ${}^{\pm0.43}$204.91 ${}^{\pm7.64}$165.47 ${}^{\pm6.30}$
Ours (DexYCB Unseen)63.56 ${}^{\pm2.08}$27.29 ${}^{\pm0.43}$13.06 ${}^{\pm0.43}$41.03 ${}^{\pm1.65}$42.70 ${}^{\pm1.19}$
Ours (OakInk Unseen)58.62 ${}^{\pm2.35}$83.27 ${}^{\pm1.17}$22.87 ${}^{\pm0.52}$253.41 ${}^{\pm13.05}$153.28 ${}^{\pm9.48}$
  • UniHMは、DexYCBとOakInkにおいて、見たことのある物体・軌跡にも unseen 物体・軌跡にも最先端の結果を達成した。
  • 形態非依存のコードブックは、MANOおよび様々なロボットハンド間で跨手の一貫性とトークン再利用を実現した。
  • 物理ガイド付き動的精緻化は、接触処理と安定性を改善し、より滑らかで実現性の高い軌道を生み出した。
  • 実世界の実験では、seen および unseen 物体に対する把持成功率が先行手法より高かった。
  • アブレーションにより、マスク付き訓練、RGB-D入力、物理的精緻化の各要素が性能と実現性に寄与していることが示された。
Figure 2: Pipeline. UniHM converts open-vocabulary instructions and RGB-D inputs into executable dexterous-hand trajectories via three stages: (1) morphology-agnostic motion tokenization; (2) language-guided generation that fuses text, perception, and token history to produce manipulation token sequ
Figure 2: Pipeline. UniHM converts open-vocabulary instructions and RGB-D inputs into executable dexterous-hand trajectories via three stages: (1) morphology-agnostic motion tokenization; (2) language-guided generation that fuses text, perception, and token history to produce manipulation token sequ

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。