QUICK REVIEW

[논문 리뷰] Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

Wonju Lee, Matteo Grimaldi|arXiv (Cornell University)|2026. 02. 14.

Advanced Sensor and Energy Harvesting Materials인용 수 0

한 줄 요약

논문은 물리학 정보에 기반한 양방향 힘 규제와 함께 Cross-Modal Transformer(CMT)를 도입하여 시각과 촉각 sensing을 융합한 로봇 삽입을 제시하며, 거의 특권적(privileged) 성능에 근접합니다.

ABSTRACT

Insertion tasks in robotic manipulation demand precise, contact-rich interactions that vision alone cannot resolve. While tactile feedback is intuitively valuable, existing studies have shown that naïve visuo-tactile fusion often fails to deliver consistent improvements. In this work, we propose a Cross-Modal Transformer (CMT) for visuo-tactile fusion that integrates wrist-camera observations with tactile signals through structured self- and cross-attention. To stabilize tactile embeddings, we further introduce a physics-informed regularization that encourages bilateral force balance, reflecting principles of human motor control. Experiments on the TacSL benchmark show that CMT with symmetry regularization achieves a 96.59% insertion success rate, surpassing naïve and gated fusion baselines and closely matching the privileged "wrist + contact force" configuration (96.09%). These results highlight two central insights: (i) tactile sensing is indispensable for precise alignment, and (ii) principled multimodal fusion, further strengthened by physics-informed regularization, unlocks complementary strengths of vision and touch, approaching privileged performance under realistic sensing.

연구 동기 및 목표

전역 시각 정렬과 국부 촉각 피드백을 모두 필요로 하는 견고한 로봇 삽입을 동기화한다.
상호 보완적 모달리티의 강점을 활용하기 위한 구조적 visuo-tactile 융합을 제안한다.
촉각 임베딩을 안정화하기 위해 물리 정보에 기반한 양방향 힘 대칭 규제를 도입한다.
현실적인 센싱 하에서 대칭 인식 융합이 특권적 성능에 근접함을 입증한다.
TacSL와 같은 벤치마크를 위한 재현 가능한 방법론과 코드 제공을 마련한다.

제안 방법

본질적으로 시각과 촉각 특징을 융합하기 위해 계층적 자기- 및 교차 주의(attention)를 사용하는 Cross-Modal Transformer를 개발한다.
좌우 손가락 힘을 정렬하는 양방향 대칭 규제를 통해 잔여 촉각 신호를 인코딩한다.
교차 주의에서 비주얼을 질의값으로, 촉각을 키/값으로 사용하여 구조화된 visuo-tactile 융합을 달성한다.
좌우 촉각 채널 간의 대칭 힘 균형을 강제하는 물리-informed 보조 손실을 도입한다.
PPO로 정책을 학습하되 PPO 목표와 대칭 규제 항을 결합한다.
TacSL 유사 삽입 작업에서 naı̈ve, 게이트드, CMT 융합 variant를 대칭 priors 유무로 비교 평가한다.

Figure 1: Comparison of observation modalities for robotic insertion policies. Left : Vision-only input provides global alignment cues but lacks local precision. Center : Tactile-only input encodes fine-grained force signals critical for corrective actions. Right : Visuo-tactile fusion integrates co

실험 결과

연구 질문

RQ1Cross-Modal Transformer가 시각과 촉각 데이터를 효과적으로 융합하여 견고한 로봇 삽입을 달성할 수 있는가?
RQ2물리 정보에 기반한 양방향 힘 대칭 규제가 촉각 임베딩을 안정화하고 삽입 성능을 향상시키는가?
RQ3 visuo-tactile 융합이 삽입 작업에서 손목+힘 sensing의 특권적 수준에 얼마나 근접할 수 있는가?
RQ4대칭 규제가 시드 간 학습 안정성과 일반화에 어떤 영향을 미치는가?

주요 결과

방법	특권	감소된	접촉 힘	손목	촉각	성공률(%)
특권	✓	\|	\|	\|	\|	96.74 ± 1.63
+ 접촉 힘	✓	\|	✓	\|	\|	98.96 ± 0.83 (+2.22)
촉각	\|	✓	\|	\|	✓	91.41 ± 5.51
손목	\|	✓	\|	✓	\|	93.23 ± 2.00
손목 + 접촉 힘	\|	✓	✓	✓	\|	96.09 ± 1.41 (+2.86)
융합 - Naïve [12]	\|	✓	\|	✓	✓	92.97 ± 1.41
융합 - 게이트드 (λ_sym=0)	\|	✓	\|	✓	✓	94.53 ± 2.73 (+1.56)
융합 - CMT (λ_sym=0)	\|	✓	\|	✓	✓	96.22 ± 0.98 (+3.25)
융합 - 게이트드 + 대칭 규제 (λ_sym=1)	\|	✓	\|	✓	✓	95.05 ± 1.76 (+2.08)
융합 - CMT + 대칭 규제 (λ_sym=1)	\|	✓	\|	✓	✓	96.59 ± 2.11 (+3.62)

Visuo-tactile 융합 with CMT는 축소된 설정에서 96.22%의 성공률을 달성하며 손목+접촉 힘 구성인 96.09%에 근접합니다.
대칭 규제는 게이트드 및 CMT 아키텍처의 성능을 더욱 높이며, CMT+대칭은 96.59%를 달성합니다.
접촉 힘 보강은 모달리티 전반의 성능을 향상시키고, 촉각만으로도 강력한 독립 성능(91.41%)을 보입니다.
순진한 융합은 최적화에서 멀리 벗어나 있는 반면, 구조화된 CMT 융합은 특권 센싱에 대한 격차를 크게 좁힙니다.
CMT는 계산과 성능 사이에 유리한 균형을 제공하며, baselines 대비 실시간 역량과 유의한 성능 향상을 제공합니다.

Figure 2: Overview of visuo-tactile fusion architectures. (a) Naïve concatenation of embeddings, which risks diluting modality-specific signals. (b) Gated fusion with linear layers that adaptively weight neuronal contributions. (c) The proposed Cross-Modal Transformer (CMT), which embeds symmetry-aw

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.