QUICK REVIEW

[논문 리뷰] Tactile Memory with Soft Robot: Robust Object Insertion via Masked Encoding and Soft Wrist

Tatsuya Kamijo, Mai Nishimura|arXiv (Cornell University)|2026. 01. 27.

Advanced Sensor and Energy Harvesting Materials인용 수 0

한 줄 요약

TaMeSo-bot은 부드러운 손목과 Masked Tactile Trajectory Transformer (MAT3)를 결합하여 촉각 경험을 저장하고 검색함으로써 견고한 피그-인-홀 삽입을 가능하게 하며, 마스크된 시공간 표현 학습 및 촉각 기억 검색을 통해 보지 못한 피그와 조건으로 일반화합니다.

ABSTRACT

Tactile memory, the ability to store and retrieve touch-based experience, is critical for contact-rich tasks such as key insertion under uncertainty. To replicate this capability, we introduce Tactile Memory with Soft Robot (TaMeSo-bot), a system that integrates a soft wrist with tactile retrieval-based control to enable safe and robust manipulation. The soft wrist allows safe contact exploration during data collection, while tactile memory reuses past demonstrations via retrieval for flexible adaptation to unseen scenarios. The core of this system is the Masked Tactile Trajectory Transformer (MAT$^ ext{3}$), which jointly models spatiotemporal interactions between robot actions, distributed tactile feedback, force-torque measurements, and proprioceptive signals. Through masked-token prediction, MAT$^ ext{3}$ learns rich spatiotemporal representations by inferring missing sensory information from context, autonomously extracting task-relevant features without explicit subtask segmentation. We validate our approach on peg-in-hole tasks with diverse pegs and conditions in real-robot experiments. Our extensive evaluation demonstrates that MAT$^ ext{3}$ achieves higher success rates than the baselines over all conditions and shows remarkable capability to adapt to unseen pegs and conditions.

연구 동기 및 목표

불확실성에 적응할 수 있는 촉각 기억을 통한 견고한 접촉-다양의 조작을 촉진한다.
안전한 데이터 수집과 유연한 실행을 가능하게 하기 위해 소프트 로봇공학과 촉각 기억을 결합한다.
촉각 신호, 힘-토크, 그리고 고유감각 사이의 시공간 상호작용을 인코딩하기 위해 MAT3를 개발한다.
과거 시연 데이터베이스에서 회수 기반의 비모수 제어를 가능하게 한다.
실제 로봇 피그-인-홀 작업에서 보지 못한 피그 및 조건으로의 일반화를 입증한다.

제안 방법

분포된 촉각 택셀, 동작, 힘-토크, 그리고 고유수용감각 신호 간의 시공간 상호작용을 인코딩하기 위해 Masked Tactile Trajectory Transformer (MAT3)을 도입한다.
맥락으로부터 마스킹된 상태와 동작을 재구성하여 풍부한 표현을 학습하기 위해 마스킹된 토큰 예측이 가능한 양방향 Transformer를 사용한다.
보조 신호의 소프트 연결 및 3x3 격자에 배치된 택셀에 대한 고정된 2D 공간 임베딩과 함께 시간 위치 인코딩으로 모달리티를 융합한다.
인코딩된 부분 궤적의 평균 풀링을 통해 얻은 임베딩 z_t를 해당 동작과 함께 촉각 기억 데이터베이스에 저장한다.
실행 중에는 현재 행동 토큰이 마스킹된 상태의 쿼리 임베딩에 대해 L2 거리를 사용하여 데이터베이스에서 k-최근접 이웃 검색을 수행한다.
보지 못한 피그 및 교란에 대한 강인성을 테스트하기 위해 실제 로봇 피그-인-홀 작업으로 평가한다.

실험 결과

연구 질문

RQ1TaMeSo-bot가 보인 피그-인-홀과 보이지 않는 피그 및 조건에서 작업을 완료할 수 있는가?
RQ2기준과 비교했을 때 MAT3가 보지 못한 피그 및 조작 조건에 대한 강인성과 적응성을 향상시키는가?
RQ3마스킹된 시공간 표현이 촉각 기억을 위한 효과적인 회수 기반 제어를 가능하게 하는가?

주요 결과

마스킹이 적용된 MAT3가 실제 로봇 실험에서 보지 못한 피그와 교란에 대해 기준보다 높은 성공률을 달성한다.
MAT3가 Tactile Transformer 및 마스킹 없는 MAT3보다 우수하며, 특히 보지 못한 조건(시작 위치, 마찰, 기울기)에서 두드러진 성능을 보인다.
마스킹된 모델링은 더 매끄럽고 하위 작업에 더 정렬된 행동의 회수를 가능하게 하여 강인성을 제공한다.
임베딩 공간 시각화는 MAT3가 하위 작업 관련 구조(적합, 정렬, 삽입)를 인코딩하여 강인한 회수에 도움을 준다는 것을 시사한다.
본 접근법은 시연된 행동에 기반한 제어를 통해 안전성을 유지하고 안전한 탐색을 위한 소프트 손목 컴플라이언스를 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.