[논문 리뷰] Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation
논문은 물리학 정보에 기반한 양방향 힘 규제와 함께 Cross-Modal Transformer(CMT)를 도입하여 시각과 촉각 sensing을 융합한 로봇 삽입을 제시하며, 거의 특권적(privileged) 성능에 근접합니다.
Insertion tasks in robotic manipulation demand precise, contact-rich interactions that vision alone cannot resolve. While tactile feedback is intuitively valuable, existing studies have shown that naïve visuo-tactile fusion often fails to deliver consistent improvements. In this work, we propose a Cross-Modal Transformer (CMT) for visuo-tactile fusion that integrates wrist-camera observations with tactile signals through structured self- and cross-attention. To stabilize tactile embeddings, we further introduce a physics-informed regularization that encourages bilateral force balance, reflecting principles of human motor control. Experiments on the TacSL benchmark show that CMT with symmetry regularization achieves a 96.59% insertion success rate, surpassing naïve and gated fusion baselines and closely matching the privileged "wrist + contact force" configuration (96.09%). These results highlight two central insights: (i) tactile sensing is indispensable for precise alignment, and (ii) principled multimodal fusion, further strengthened by physics-informed regularization, unlocks complementary strengths of vision and touch, approaching privileged performance under realistic sensing.
연구 동기 및 목표
- 전역 시각 정렬과 국부 촉각 피드백을 모두 필요로 하는 견고한 로봇 삽입을 동기화한다.
- 상호 보완적 모달리티의 강점을 활용하기 위한 구조적 visuo-tactile 융합을 제안한다.
- 촉각 임베딩을 안정화하기 위해 물리 정보에 기반한 양방향 힘 대칭 규제를 도입한다.
- 현실적인 센싱 하에서 대칭 인식 융합이 특권적 성능에 근접함을 입증한다.
- TacSL와 같은 벤치마크를 위한 재현 가능한 방법론과 코드 제공을 마련한다.
제안 방법
- 본질적으로 시각과 촉각 특징을 융합하기 위해 계층적 자기- 및 교차 주의(attention)를 사용하는 Cross-Modal Transformer를 개발한다.
- 좌우 손가락 힘을 정렬하는 양방향 대칭 규제를 통해 잔여 촉각 신호를 인코딩한다.
- 교차 주의에서 비주얼을 질의값으로, 촉각을 키/값으로 사용하여 구조화된 visuo-tactile 융합을 달성한다.
- 좌우 촉각 채널 간의 대칭 힘 균형을 강제하는 물리-informed 보조 손실을 도입한다.
- PPO로 정책을 학습하되 PPO 목표와 대칭 규제 항을 결합한다.
- TacSL 유사 삽입 작업에서 naı̈ve, 게이트드, CMT 융합 variant를 대칭 priors 유무로 비교 평가한다.

실험 결과
연구 질문
- RQ1Cross-Modal Transformer가 시각과 촉각 데이터를 효과적으로 융합하여 견고한 로봇 삽입을 달성할 수 있는가?
- RQ2물리 정보에 기반한 양방향 힘 대칭 규제가 촉각 임베딩을 안정화하고 삽입 성능을 향상시키는가?
- RQ3 visuo-tactile 융합이 삽입 작업에서 손목+힘 sensing의 특권적 수준에 얼마나 근접할 수 있는가?
- RQ4대칭 규제가 시드 간 학습 안정성과 일반화에 어떤 영향을 미치는가?
주요 결과
| 방법 | 특권 | 감소된 | 접촉 힘 | 손목 | 촉각 | 성공률(%) |
|---|---|---|---|---|---|---|
| 특권 | ✓ | | | | | | | | | 96.74 ± 1.63 |
| + 접촉 힘 | ✓ | | | ✓ | | | | | 98.96 ± 0.83 (+2.22) |
| 촉각 | | | ✓ | | | | | ✓ | 91.41 ± 5.51 |
| 손목 | | | ✓ | | | ✓ | | | 93.23 ± 2.00 |
| 손목 + 접촉 힘 | | | ✓ | ✓ | ✓ | | | 96.09 ± 1.41 (+2.86) |
| 융합 - Naïve [12] | | | ✓ | | | ✓ | ✓ | 92.97 ± 1.41 |
| 융합 - 게이트드 (λ_sym=0) | | | ✓ | | | ✓ | ✓ | 94.53 ± 2.73 (+1.56) |
| 융합 - CMT (λ_sym=0) | | | ✓ | | | ✓ | ✓ | 96.22 ± 0.98 (+3.25) |
| 융합 - 게이트드 + 대칭 규제 (λ_sym=1) | | | ✓ | | | ✓ | ✓ | 95.05 ± 1.76 (+2.08) |
| 융합 - CMT + 대칭 규제 (λ_sym=1) | | | ✓ | | | ✓ | ✓ | 96.59 ± 2.11 (+3.62) |
- Visuo-tactile 융합 with CMT는 축소된 설정에서 96.22%의 성공률을 달성하며 손목+접촉 힘 구성인 96.09%에 근접합니다.
- 대칭 규제는 게이트드 및 CMT 아키텍처의 성능을 더욱 높이며, CMT+대칭은 96.59%를 달성합니다.
- 접촉 힘 보강은 모달리티 전반의 성능을 향상시키고, 촉각만으로도 강력한 독립 성능(91.41%)을 보입니다.
- 순진한 융합은 최적화에서 멀리 벗어나 있는 반면, 구조화된 CMT 융합은 특권 센싱에 대한 격차를 크게 좁힙니다.
- CMT는 계산과 성능 사이에 유리한 균형을 제공하며, baselines 대비 실시간 역량과 유의한 성능 향상을 제공합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.