Skip to main content
QUICK REVIEW

[논문 리뷰] Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

Wonju Lee, Matteo Grimaldi|arXiv (Cornell University)|2026. 02. 14.
Advanced Sensor and Energy Harvesting Materials인용 수 0
한 줄 요약

논문은 물리학 정보에 기반한 양방향 힘 규제와 함께 Cross-Modal Transformer(CMT)를 도입하여 시각과 촉각 sensing을 융합한 로봇 삽입을 제시하며, 거의 특권적(privileged) 성능에 근접합니다.

ABSTRACT

Insertion tasks in robotic manipulation demand precise, contact-rich interactions that vision alone cannot resolve. While tactile feedback is intuitively valuable, existing studies have shown that naïve visuo-tactile fusion often fails to deliver consistent improvements. In this work, we propose a Cross-Modal Transformer (CMT) for visuo-tactile fusion that integrates wrist-camera observations with tactile signals through structured self- and cross-attention. To stabilize tactile embeddings, we further introduce a physics-informed regularization that encourages bilateral force balance, reflecting principles of human motor control. Experiments on the TacSL benchmark show that CMT with symmetry regularization achieves a 96.59% insertion success rate, surpassing naïve and gated fusion baselines and closely matching the privileged "wrist + contact force" configuration (96.09%). These results highlight two central insights: (i) tactile sensing is indispensable for precise alignment, and (ii) principled multimodal fusion, further strengthened by physics-informed regularization, unlocks complementary strengths of vision and touch, approaching privileged performance under realistic sensing.

연구 동기 및 목표

  • 전역 시각 정렬과 국부 촉각 피드백을 모두 필요로 하는 견고한 로봇 삽입을 동기화한다.
  • 상호 보완적 모달리티의 강점을 활용하기 위한 구조적 visuo-tactile 융합을 제안한다.
  • 촉각 임베딩을 안정화하기 위해 물리 정보에 기반한 양방향 힘 대칭 규제를 도입한다.
  • 현실적인 센싱 하에서 대칭 인식 융합이 특권적 성능에 근접함을 입증한다.
  • TacSL와 같은 벤치마크를 위한 재현 가능한 방법론과 코드 제공을 마련한다.

제안 방법

  • 본질적으로 시각과 촉각 특징을 융합하기 위해 계층적 자기- 및 교차 주의(attention)를 사용하는 Cross-Modal Transformer를 개발한다.
  • 좌우 손가락 힘을 정렬하는 양방향 대칭 규제를 통해 잔여 촉각 신호를 인코딩한다.
  • 교차 주의에서 비주얼을 질의값으로, 촉각을 키/값으로 사용하여 구조화된 visuo-tactile 융합을 달성한다.
  • 좌우 촉각 채널 간의 대칭 힘 균형을 강제하는 물리-informed 보조 손실을 도입한다.
  • PPO로 정책을 학습하되 PPO 목표와 대칭 규제 항을 결합한다.
  • TacSL 유사 삽입 작업에서 naı̈ve, 게이트드, CMT 융합 variant를 대칭 priors 유무로 비교 평가한다.
Figure 1: Comparison of observation modalities for robotic insertion policies. Left : Vision-only input provides global alignment cues but lacks local precision. Center : Tactile-only input encodes fine-grained force signals critical for corrective actions. Right : Visuo-tactile fusion integrates co
Figure 1: Comparison of observation modalities for robotic insertion policies. Left : Vision-only input provides global alignment cues but lacks local precision. Center : Tactile-only input encodes fine-grained force signals critical for corrective actions. Right : Visuo-tactile fusion integrates co

실험 결과

연구 질문

  • RQ1Cross-Modal Transformer가 시각과 촉각 데이터를 효과적으로 융합하여 견고한 로봇 삽입을 달성할 수 있는가?
  • RQ2물리 정보에 기반한 양방향 힘 대칭 규제가 촉각 임베딩을 안정화하고 삽입 성능을 향상시키는가?
  • RQ3 visuo-tactile 융합이 삽입 작업에서 손목+힘 sensing의 특권적 수준에 얼마나 근접할 수 있는가?
  • RQ4대칭 규제가 시드 간 학습 안정성과 일반화에 어떤 영향을 미치는가?

주요 결과

방법특권감소된접촉 힘손목촉각성공률(%)
특권||||96.74 ± 1.63
+ 접촉 힘|||98.96 ± 0.83 (+2.22)
촉각|||91.41 ± 5.51
손목|||93.23 ± 2.00
손목 + 접촉 힘||96.09 ± 1.41 (+2.86)
융합 - Naïve [12]||92.97 ± 1.41
융합 - 게이트드 (λ_sym=0)||94.53 ± 2.73 (+1.56)
융합 - CMT (λ_sym=0)||96.22 ± 0.98 (+3.25)
융합 - 게이트드 + 대칭 규제 (λ_sym=1)||95.05 ± 1.76 (+2.08)
융합 - CMT + 대칭 규제 (λ_sym=1)||96.59 ± 2.11 (+3.62)
  • Visuo-tactile 융합 with CMT는 축소된 설정에서 96.22%의 성공률을 달성하며 손목+접촉 힘 구성인 96.09%에 근접합니다.
  • 대칭 규제는 게이트드 및 CMT 아키텍처의 성능을 더욱 높이며, CMT+대칭은 96.59%를 달성합니다.
  • 접촉 힘 보강은 모달리티 전반의 성능을 향상시키고, 촉각만으로도 강력한 독립 성능(91.41%)을 보입니다.
  • 순진한 융합은 최적화에서 멀리 벗어나 있는 반면, 구조화된 CMT 융합은 특권 센싱에 대한 격차를 크게 좁힙니다.
  • CMT는 계산과 성능 사이에 유리한 균형을 제공하며, baselines 대비 실시간 역량과 유의한 성능 향상을 제공합니다.
Figure 2: Overview of visuo-tactile fusion architectures. (a) Naïve concatenation of embeddings, which risks diluting modality-specific signals. (b) Gated fusion with linear layers that adaptively weight neuronal contributions. (c) The proposed Cross-Modal Transformer (CMT), which embeds symmetry-aw
Figure 2: Overview of visuo-tactile fusion architectures. (a) Naïve concatenation of embeddings, which risks diluting modality-specific signals. (b) Gated fusion with linear layers that adaptively weight neuronal contributions. (c) The proposed Cross-Modal Transformer (CMT), which embeds symmetry-aw

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.