Skip to main content
QUICK REVIEW

[논문 리뷰] DexTac: Learning Contact-aware Visuotactile Policies via Hand-by-hand Teaching

Xingyu Zhang, Chaofan Zhang|arXiv (Cornell University)|2026. 01. 29.
Tactile and Sensory Interactions인용 수 0
한 줄 요약

DexTac은 손으로 직접 수행하는 키네스테틱 시연과 다차원 시각-촉각 감지를 결합하여 접촉 인지 정책을 학습하고, 주사기 주사 과제에서 힘과 접촉 영역(CoP)을 함께 예측합니다. 이는 정교한 조작에서 높은 성공률과 강한 일반화 및 데이터 효율성을 보여주며, 촉각 컨트롤러가 접촉 인지 실행을 강제합니다.

ABSTRACT

For contact-intensive tasks, the ability to generate policies that produce comprehensive tactile-aware motions is essential. However, existing data collection and skill learning systems for dexterous manipulation often suffer from low-dimensional tactile information. To address this limitation, we propose DexTac, a visuo-tactile manipulation learning framework based on kinesthetic teaching. DexTac captures multi-dimensional tactile data-including contact force distributions and spatial contact regions-directly from human demonstrations. By integrating these rich tactile modalities into a policy network, the resulting contact-aware agent enables a dexterous hand to autonomously select and maintain optimal contact regions during complex interactions. We evaluate our framework on a challenging unimanual injection task. Experimental results demonstrate that DexTac achieves a 91.67% success rate. Notably, in high-precision scenarios involving small-scale syringes, our approach outperforms force-only baselines by 31.67%. These results underscore that learning multi-dimensional tactile priors from human demonstrations is critical for achieving robust, human-like dexterous manipulation in contact-rich environments.

연구 동기 및 목표

  • 관절 상태, RGB 영상, 촉각 데이터를 포함한 접촉 영역 정보를 포함하는 고품질 다중모달 전문가 시연을 제공한다.
  • 정교한 조작 중 힘과 접촉 영역(CoP)을 예측하는 접촉 인지 정책을 학습한다.
  • 정책 예측과 촉각 신호를 결합한 촉각 컨트롤러를 배치하여 실시간으로 손가락 힘과 접촉 영역을 제어한다.
  • 도전적인 단측 주사기 주사 과제에서 성공률 향상을 시연하고 보지 않은 주사기 크기에 대한 일반화도 보인다

제안 방법

  • 도메인 시프트를 줄이기 위해 손가락 끝 보호대를 사용하여 인간 손가락을 가리는 손-대-손으로 진행하는 키네스테틱 교육을 통해 다중 모달 전문가 데이터를 수집한다.
  • RGB 이미지, GelStereo BioTip 센서의 촉각 영상, 관절 상태, 상호 작용 힘 및 각 손가락 끝의 중심 압력(CoP)을 포착한다.
  • 관절 변동, 촉각 힘 및 CoP를 포함하는 액션 청크로 다중 모달 상태를 매핑하는 ACT 기반 정책 네트워크를 훈련한다.
  • 정책 잠재 공간을 정규화하고 순차적 계획을 가능하게 하기 위해 KL발산 항이 있는 잠재 변수 z를 포함한다.
  • 예측된 힘과 CoP를 사용하여 힘 정보를 반영한 위치 기준을 조정하는 촉각 컨트롤러를 배치하여 접촉 인지 움직임을 보장한다.
  • 정책 학습을 불완전한 모방 학습으로 형식화하고, 액션 청크의 L1 오차를 최소화하는 손실과 KL 정규화 항을 포함한다.

실험 결과

연구 질문

  • RQ1특히 CoP를 포함한 촉각 정보가 주사기 주사 과제에서 정교한 조작 성능을 향상시키는가?
  • RQ2접촉 인지 정책이 보지 않은 주사기 크기에 일반화되는 정도(제로샷 전이)는 어떤가요?
  • RQ3시연 데이터의 양이 증가함에 따라 성능은 어떻게 스케일링되나요(데이터 효율성)?

주요 결과

  • DexTac는 주사기 크기에 걸쳐 평균 성공률 91.67%를 달성하여 힘만 기반 베이스라인보다 31.67% 포인트 향상시킵니다.
  • 제로샷 전이가 20 mL 주사기로의 65%의 성공률을 보이며 강한 일반화를 시사합니다.
  • 제거 실험은 촉각 감지 또는 CoP를 제거하면 성능이 저하됨을 보여주며, 촉각+CoP가 가장 높은 성공을 낳습니다.
  • 데이터 효율성은 시연이 늘어나면 성능이 향상되며 크기당 약 30회의 시연에서 플래토에 도달합니다.
  • 순수 촉각 실험은 비전이 다이나믹한 그랩-푸시 태스크에서 유익하다는 것을 나타내며, 연속 접촉 사례는 시각 입력이 최소한으로 있어도 수행할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.