Skip to main content
QUICK REVIEW

[論文レビュー] MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Zhixian Hu, Zhengtong Xu|arXiv (Cornell University)|Mar 10, 2026
Advanced Sensor and Energy Harvesting Materials被引用数 0
ひとこと要約

tldr: MuxGelは、GelSight風センサのチェッカーボードコーティングを空間的に多重化し、視覚と触覚に焦点を当てた別個の出力をデュアルストリームニューラルネットワークと現実シム訓練で再構成することにより、単一カメラで高解像度の視覚と触覚の同時検知を実現します。

ABSTRACT

High-fidelity visuo-tactile sensing is important for precise robotic manipulation. However, most vision-based tactile sensors face a fundamental trade-off: opaque coatings enable tactile sensing but block pre-contact vision. To address this, we propose MuxGel, a spatially multiplexed sensor that captures both external visual information and contact-induced tactile signals through a single camera. By using a checkerboard coating pattern, MuxGel interleaves tactile-sensitive regions with transparent windows for external vision. This design maintains standard form factors, allowing for plug-and-play integration into GelSight-style sensors by simply replacing the gel pad. To recover full-resolution vision and tactile signals from the multiplexed inputs, we develop a U-Net-based reconstruction framework. Leveraging a sim-to-real pipeline, our model effectively decouples and restores high-fidelity tactile and visual fields simultaneously. Experiments on unseen objects demonstrate the framework's generalization and accuracy. Furthermore, we demonstrate MuxGel's utility in grasping tasks, where dual-modality feedback facilitates both pre-contact alignment and post-contact interaction. Results show that MuxGel enhances the perceptual capabilities of existing vision-based tactile sensors while maintaining compatibility with their hardware stacks. Project webpage: https://zhixianhu.github.io/muxgel/.

研究の動機と目的

  • manipulationの過程で視覚と触覚の Occlusionを避け、連続したデュアルモーダル視覚-触覚知覚を実現する。
  • Plug-and-play統合のためのGelSightパッド形状を標準のまま維持し、ハードウェアの再設計を不要とする。
  • 多重データから高忠実度の視覚信号と触覚信号をデカップルして復元する深層再構成パイプラインを開発する。
  • unseen objectsへ一般化し、操作能力を高めるための sim-to-real 訓練パイプラインを活用する。

提案手法

  • GelSight風パッド上に触覚領域と視覚領域を作るための空間的多重化チェッカーボードコーティングを実装する。
  • 物理ベースのシミュレータとドメインランダム化を用い、製造や光学変動を模倣するランダム化ウェーブチェッカーボードマスクを用いた大規模な視覚-触覚データを生成する。
  • muxNetを提案する。共有エンコーダと2つのデコーダを持つデュアルストリームのResNet34-UNetで、6チャネル入力(融合画像と非接触参照)から視覚と触覚出力を再構成する。
  • 2段階で訓練する。シミュレーション前訓練はL1および勾配ベースの触覚損失、実世界微調整は物理ベースの拡張と知覚損失(SSIM、LPIPS、LPIPSベースの知覚損失)で行う。
  • 残差触覚の定式化(DI-ResT)を非接触参照画像とともに用い、非接触触覚背景に加算される触覚残差を予測して触覚忠実度を向上させる。

実験結果

リサーチクエスチョン

  • RQ1単一カメラで前接触視覚情報と接触による触覚信号をハードウェア変更なしに同時に捉えられるか?
  • RQ2空間的に多重化されたセンサ入力から高忠実度の視覚・触覚場をデカップルして再構成する方法は?
  • RQ3現実世界の操作タスクにおいて、触覚の詳細と視覚の完全性の最適なバランスを取るハードウェアパターン(チェッカーボード解像度)はどれか?
  • RQ4sim-to-real訓練は unseen objectsで正確な再構成と堅牢な操作性能を可能にするか?
  • RQ5デュアルモーダルフィードバックは把持の精度と信頼性を向上させるか?

主な発見

  • MuxGelはGelSight風パッドの透明ウィンドウとチェッカーボードコーティングを用いて触覚領域を視覚領域と交互に配置することで同時の視覚-触覚センサを実現する。
  • 2段階のmuxNet(共有エンコーダ、デュアルUNetデコーダ)は多重入力から触覚と視覚出力を効果的に分離・再構成し、触覚再構成は残差学習(DI-ResT)で改善される。
  • 実世界の微調整は触覚再構成を大幅に改善(DI-ResTでRMSEが0.0287へ低下)し、視覚再構成は強力なまま維持される(視覚LPIPSとSSIM指標)。
  • 4x4チェッカーボード構成は触覚忠実度と操作性能のトレードオフで最良を提供する一方、8x8は視覚再構成が最良を示す。全体として、操作実験には4x4が選択された。
  • 視覚-触覚サーボ把持テスト(Robotiqグリッパーと統合)では、MuxGelは未 seen objectの9件で把持成功率100%を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。