QUICK REVIEW

[論文レビュー] Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

Wonju Lee, Matteo Grimaldi|arXiv (Cornell University)|Feb 14, 2026

Advanced Sensor and Energy Harvesting Materials被引用数 0

ひとこと要約

本論文は Cross-Modal Transformer (CMT) と物理情報に基づく両方向力正則化を提案し、視覚と触覚 sensing を組み合わせてロボットの挿入を実現。 неф ほぼ特権的な性能に近づく。

ABSTRACT

Insertion tasks in robotic manipulation demand precise, contact-rich interactions that vision alone cannot resolve. While tactile feedback is intuitively valuable, existing studies have shown that naïve visuo-tactile fusion often fails to deliver consistent improvements. In this work, we propose a Cross-Modal Transformer (CMT) for visuo-tactile fusion that integrates wrist-camera observations with tactile signals through structured self- and cross-attention. To stabilize tactile embeddings, we further introduce a physics-informed regularization that encourages bilateral force balance, reflecting principles of human motor control. Experiments on the TacSL benchmark show that CMT with symmetry regularization achieves a 96.59% insertion success rate, surpassing naïve and gated fusion baselines and closely matching the privileged "wrist + contact force" configuration (96.09%). These results highlight two central insights: (i) tactile sensing is indispensable for precise alignment, and (ii) principled multimodal fusion, further strengthened by physics-informed regularization, unlocks complementary strengths of vision and touch, approaching privileged performance under realistic sensing.

研究の動機と目的

グローバルな視覚整合と局所的な触覚フィードバックの両方を必要とする堅牢なロボット挿入を動機づける。
補完的なモダリティの長所を活かす構造化された視覚-触覚融合を提案する。
触覚埋め込みを安定化させるために、物理情報を組み込んだ両方向力の対称性を正則化として導入する。
現実的なセンシング下での優越的な性能に近づく対称性を意識した融合を示す。
TacSL に類似したタスクでのベンチマークと再現可能な手法・コードの提供を行う。

提案手法

視覚と触覚の特徴を階層的自己注意とクロス注意で融合する Cross-Modal Transformer を開発する。
左手と右手の力を整列させる両方向対称性正則化を用いて残差触覚信号をエンコードする。
視覚をクエリ、触覚をキー/値としてクロス注意に適用し、構造化された視覚-触覚融合を実現する。
左右の触覚チャネル間の丛力バランスを課す物理情報を取り入れた補助損失を導入する。
PPO で方策を訓練し、PPO 目的と対称性正則化項を組み合わせる。
TacSL に類似する挿入タスクで評価し、素朴、ゲート付き、CMT 融合の各バリアントを対称 priors の有無で比較する。

Figure 1: Comparison of observation modalities for robotic insertion policies. Left : Vision-only input provides global alignment cues but lacks local precision. Center : Tactile-only input encodes fine-grained force signals critical for corrective actions. Right : Visuo-tactile fusion integrates co

実験結果

リサーチクエスチョン

RQ1Cross-Modal Transformer は視覚と触覚データを用いた堅牢なロボット挿入に効果的に融合できるか。
RQ2物理情報に基づく両方向力の対称性正則化は触覚埋め込みを安定化させ、挿入性能を改善するか。
RQ3視覚-触覚融合は挿入タスクにおいて特権的な手首+力センサにどれだけ近づくことができるか。
RQ4対称性正則化がトレーニングの安定性と種間一般化に与える影響はどの程度か。

主な発見

方法	特権	縮小	接触力	手首	触覚	成功率（％）
特権	✓	\|	\|	\|	\|	96.74 ± 1.63
+ 接触力	✓	\|	✓	\|	\|	98.96 ± 0.83 (+2.22)
触覚	\|	✓	\|	\|	✓	91.41 ± 5.51
手首	\|	✓	\|	✓	\|	93.23 ± 2.00
手首 + 接触力	\|	✓	✓	✓	\|	96.09 ± 1.41 (+2.86)
融合 - Naïve [12]	\|	✓	\|	✓	✓	92.97 ± 1.41
融合 - Gated (λ_sym=0)	\|	✓	\|	✓	✓	94.53 ± 2.73 (+1.56)
融合 - CMT (λ_sym=0)	\|	✓	\|	✓	✓	96.22 ± 0.98 (+3.25)
融合 - Gated + Symmetry regularization (λ_sym=1)	\|	✓	\|	✓	✓	95.05 ± 1.76 (+2.08)
融合 - CMT + Symmetry regularization (λ_sym=1)	\|	✓	\|	✓	✓	96.59 ± 2.11 (+3.62)

視覚-触覚融合を CMT で行うと、縮小設定で 96.22% の成功率を達成し、特権的な手首+接触力構成の 96.09% に近づく。
対称性正則化はゲート付きおよび CMT アーキテクチャの性能をさらに向上させ、CMT+Symmetry は 96.59% を達成。
接触力の増強によりモダリティ横断で性能が向上し、触覚のみのポリシーは単独で顕著な結果を示す（91.41%）。
素朴な融合は最適化から遠く、構造化された CMT 融合は特権的センサリングへのギャップを大幅に縮める。
CMT は計算と性能の良好なトレードオフを提供し、ベースラインに対して実時間性と顕著な改善を実現する。

Figure 2: Overview of visuo-tactile fusion architectures. (a) Naïve concatenation of embeddings, which risks diluting modality-specific signals. (b) Gated fusion with linear layers that adaptively weight neuronal contributions. (c) The proposed Cross-Modal Transformer (CMT), which embeds symmetry-aw

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。