QUICK REVIEW

[논문 리뷰] DexTac: Learning Contact-aware Visuotactile Policies via Hand-by-hand Teaching

Xingyu Zhang, Chaofan Zhang|arXiv (Cornell University)|2026. 01. 29.

Tactile and Sensory Interactions인용 수 0

한 줄 요약

DexTac은 손으로 직접 수행하는 키네스테틱 시연과 다차원 시각-촉각 감지를 결합하여 접촉 인지 정책을 학습하고, 주사기 주사 과제에서 힘과 접촉 영역(CoP)을 함께 예측합니다. 이는 정교한 조작에서 높은 성공률과 강한 일반화 및 데이터 효율성을 보여주며, 촉각 컨트롤러가 접촉 인지 실행을 강제합니다.

ABSTRACT

For contact-intensive tasks, the ability to generate policies that produce comprehensive tactile-aware motions is essential. However, existing data collection and skill learning systems for dexterous manipulation often suffer from low-dimensional tactile information. To address this limitation, we propose DexTac, a visuo-tactile manipulation learning framework based on kinesthetic teaching. DexTac captures multi-dimensional tactile data-including contact force distributions and spatial contact regions-directly from human demonstrations. By integrating these rich tactile modalities into a policy network, the resulting contact-aware agent enables a dexterous hand to autonomously select and maintain optimal contact regions during complex interactions. We evaluate our framework on a challenging unimanual injection task. Experimental results demonstrate that DexTac achieves a 91.67% success rate. Notably, in high-precision scenarios involving small-scale syringes, our approach outperforms force-only baselines by 31.67%. These results underscore that learning multi-dimensional tactile priors from human demonstrations is critical for achieving robust, human-like dexterous manipulation in contact-rich environments.

연구 동기 및 목표

관절 상태, RGB 영상, 촉각 데이터를 포함한 접촉 영역 정보를 포함하는 고품질 다중모달 전문가 시연을 제공한다.
정교한 조작 중 힘과 접촉 영역(CoP)을 예측하는 접촉 인지 정책을 학습한다.
정책 예측과 촉각 신호를 결합한 촉각 컨트롤러를 배치하여 실시간으로 손가락 힘과 접촉 영역을 제어한다.
도전적인 단측 주사기 주사 과제에서 성공률 향상을 시연하고 보지 않은 주사기 크기에 대한 일반화도 보인다

제안 방법

도메인 시프트를 줄이기 위해 손가락 끝 보호대를 사용하여 인간 손가락을 가리는 손-대-손으로 진행하는 키네스테틱 교육을 통해 다중 모달 전문가 데이터를 수집한다.
RGB 이미지, GelStereo BioTip 센서의 촉각 영상, 관절 상태, 상호 작용 힘 및 각 손가락 끝의 중심 압력(CoP)을 포착한다.
관절 변동, 촉각 힘 및 CoP를 포함하는 액션 청크로 다중 모달 상태를 매핑하는 ACT 기반 정책 네트워크를 훈련한다.
정책 잠재 공간을 정규화하고 순차적 계획을 가능하게 하기 위해 KL발산 항이 있는 잠재 변수 z를 포함한다.
예측된 힘과 CoP를 사용하여 힘 정보를 반영한 위치 기준을 조정하는 촉각 컨트롤러를 배치하여 접촉 인지 움직임을 보장한다.
정책 학습을 불완전한 모방 학습으로 형식화하고, 액션 청크의 L1 오차를 최소화하는 손실과 KL 정규화 항을 포함한다.

실험 결과

연구 질문

RQ1특히 CoP를 포함한 촉각 정보가 주사기 주사 과제에서 정교한 조작 성능을 향상시키는가?
RQ2접촉 인지 정책이 보지 않은 주사기 크기에 일반화되는 정도(제로샷 전이)는 어떤가요?
RQ3시연 데이터의 양이 증가함에 따라 성능은 어떻게 스케일링되나요(데이터 효율성)?

주요 결과

DexTac는 주사기 크기에 걸쳐 평균 성공률 91.67%를 달성하여 힘만 기반 베이스라인보다 31.67% 포인트 향상시킵니다.
제로샷 전이가 20 mL 주사기로의 65%의 성공률을 보이며 강한 일반화를 시사합니다.
제거 실험은 촉각 감지 또는 CoP를 제거하면 성능이 저하됨을 보여주며, 촉각+CoP가 가장 높은 성공을 낳습니다.
데이터 효율성은 시연이 늘어나면 성능이 향상되며 크기당 약 30회의 시연에서 플래토에 도달합니다.
순수 촉각 실험은 비전이 다이나믹한 그랩-푸시 태스크에서 유익하다는 것을 나타내며, 연속 접촉 사례는 시각 입력이 최소한으로 있어도 수행할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.