[논문 리뷰] UniHM: Unified Dexterous Hand Manipulation with Vision Language Model
UniHM은 여러 형태의 다이내믹하고 정교한 손 조작을 위한 통합된, 언어-조건화 프레임워크를 도입하여 형태에 구애받지 않는 토크로그램 코드북, 비전-언어 모델, 물리 기반 정제를 활용해 개방 어휘 지시로부터 실행 가능한 조작 시퀀스를 생성합니다.
Planning physically feasible dexterous hand manipulation is a central challenge in robotic manipulation and Embodied AI. Prior work typically relies on object-centric cues or precise hand-object interaction sequences, foregoing the rich, compositional guidance of open-vocabulary instruction. We introduce UniHM, the first framework for unified dexterous hand manipulation guided by free-form language commands. We propose a Unified Hand-Dexterous Tokenizer that maps heterogeneous dexterous-hand morphologies into a single shared codebook, improving cross-dexterous hand generalization and scalability to new morphologies. Our vision language action model is trained solely on human-object interaction data, eliminating the need for massive real-world teleoperation datasets, and demonstrates strong generalizability in producing human-like manipulation sequences from open-ended language instructions. To ensure physical realism, we introduce a physics-guided dynamic refinement module that performs segment-wise joint optimization under generative and temporal priors, yielding smooth and physically feasible manipulation sequences. Across multiple datasets and real-world evaluations, UniHM attains state-of-the-art results on both seen and unseen objects and trajectories, demonstrating strong generalization and high physical feasibility. Our project page at \href{https://unihm.github.io/}{https://unihm.github.io/}.
연구 동기 및 목표
- 개방 어휘의 동적 정교 핸드 조작이 정적 그립을 넘어 필요하다는 동기를 제시합니다.
- 교차 손 일반화를 가능하게 하는 형태 불변 토코나이제이션 스키마를 제안합니다.
- 언어와 인지 데이터를 조건으로 조작 시퀀스를 생성하는 비전-언어 모델을 개발합니다.
- 물리 기반의 동적 정제를 도입하여 궤적의 물리적 실현 가능성을 보장합니다.
- 광범위한 평가를 통해 보이지 않는 물체, 형태, 작업에 대한 강건한 일반화를 시연합니다.
제안 방법
- 다양한 손 자세를 공통의 이산 행동 격자에 매핑하는 공유 VQ-VAE 코드북을 갖춘 통합 핸드-정교 토크나이저를 도입합니다.
- RGB-D와 언어로부터 대상 궤적을 추론하기 위해 CLIPort 스타일 인식 헤드를 갖춘 비전-언어 모델을 사용한 후 토큰 기반 시퀀스를 생성합니다.
- 참조 인코더에 지식 증류를 통해 새로운 손 형태를 학습하고 정렬하여 교차-정교 핸드 토큰 재사용 및 morphology-specific 디코더로의 디코딩을 가능하게 합니다.
- 접촉, 생성 사전, 시간적 사전을 포함한 Gauss-Newton 프레임워크를 사용해 각 프레임을 물리적 실현 가능성으로 최적화하는 물리 기반 동적 정제를 적용합니다.
- 사람 영상에서 HOI 시퀀스를 주석하고 Dex-Retargeting을 수행해 MANO 포즈를 다양한 정교 손으로 매핑하며 에너지 기반 제약으로 궤적을 정제합니다.

실험 결과
연구 질문
- RQ1개방 어휘 언어 명령이 여러 손 형태에서 동적이고 다단계의 정교 핸드 조작 궤적을 생성하는 데 사용될 수 있는가?
- RQ2형태 불변 코드북이 효과적인 교차 손 일반화와 전이를 가능하게 하는가?
- RQ3물리 기반 정제가 생성된 조작 시퀀스의 시간적 매끄러움과 물리적 실현 가능성을 얼마나 개선하는가?
- RQ4인간 HOI 비디오에서 학습함으로써 비싼 원격 조작 데이터의 필요를 없앨 수 있으며 보지 못한 물체와 작업에 대한 일반화 역량은 유지될 수 있는가?
주요 결과
- UniHM은 보이는 물체와 보이지 않는 물체, 궤적에 대해 DexYCB와 OakInk에서 최첨단 성능을 달성합니다.
- 형태 불변 코드북은 MANO 및 다양한 로봇 손 간의 교차 손 일관성 및 토큰 재사용을 가능하게 합니다.
- 물리 기반 동적 정제는 접촉 처리와 안정성이 향상된 더 매끄럽고 실행 가능성이 높은 궤적을 제공합니다.
- 실험실 외 실험에서 보이는 물체 및 보이지 않는 물체에 대해 이전 방법보다 더 높은 그립 성공률을 보였습니다.
- 가지치기 연구에서 마스크드 학습, RGB-D 입력 및 물리적 정제가 각각 성능과 실현 가능성에 기여함을 보였습니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.