QUICK REVIEW

[論文レビュー] VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

Snehal Dikhale, Karankumar Patel|arXiv (Cornell University)|Jan 4, 2026

Advanced Sensor and Energy Harvesting Materials被引用数 0

ひとこと要約

要約: 本論文は視覚と触覚データを融合してロボットの手で保持された物体の6D姿勢を推定する視覚-触覚ネットワークを提案し、視覚のみの手法より精度が向上し、合成データから実機ロボットへ転移することを示す。

ABSTRACT

Knowledge of the 6D pose of an object can benefit in-hand object manipulation. In-hand 6D object pose estimation is challenging because of heavy occlusion produced by the robot's grippers, which can have an adverse effect on methods that rely on vision data only. Many robots are equipped with tactile sensors at their fingertips that could be used to complement vision data. In this paper, we present a method that uses both tactile and vision data to estimate the pose of an object grasped in a robot's hand. To address challenges like lack of standard representation for tactile data and sensor fusion, we propose the use of point clouds to represent object surfaces in contact with the tactile sensor and present a network architecture based on pixel-wise dense fusion. We also extend NVIDIA's Deep Learning Dataset Synthesizer to produce synthetic photo-realistic vision data and corresponding tactile point clouds. Results suggest that using tactile data in addition to vision data improves the 6D pose estimate, and our network generalizes successfully from synthetic training to real physical robots.

研究の動機と目的

重量級グリッパーの遮蔽が視覚のみの手法を制限する場面で、手の中の物体の6D姿勢推定を動機づける。
触覚センサ不変表現として、指接触位置の物体表面点群を提案する。
ピクセル単位と点単位の融合を用いた二Branchの視覚-触覚ネットワークを構築し、6D姿勢を推定する。
複数のYCB物体に対して対応する触覚点群を含む写真のリアリスティックな視覚データを合成するNDDSを拡張する。
触覚データを組み込むことで姿勢推定が改善され、実機ロボット環境への転移を評価する。

提案手法

触覚データを指と物体の接触位置の物体表面点群として表現し、センサ間で触覚入力を標準化する。
視覚ブランチと触覚ブランチの二チャンネルネットワークを用い、視覚チャネルではカラー+深度をピクセル単位の密結合で融合し、触覚チャネルでは触覚深度を触覚表面点と融合させる。
視覚と触覚の埋め込みから得られるグローバル特徴を用いて、各特徴の平行な翻訳・回転・信頼度を出力する姿勢推定器を導入する。
回転推定にはサイアミーズ構成を採用し、視覚と触覚ストリームを整合させる。
11個のYCB物体について、20,000サンプル/物体を含む NVIDIA NDDS から拡張した合成視覚-触覚データセットで訓練する。

実験結果

リサーチクエスチョン

RQ1触覚データを視覚と組み合わせることは、遮蔽下の手の中の物体の6D姿勢推定を改善するか。
RQ2触覚センサ不変表現は、異なるグリッパ/センサ間で視覚-触覚の融合を可能にするか。
RQ3合成の視覚-触覚データは実機ロボット環境へ一般化するか。
RQ4遮蔽レベルと触覚接触点の数は姿勢推定の精度にどのように影響するか。
RQ5提案手法は視覚のみのベースラインおよび最先端の視覚法と比べてどの程度優れているか。

主な発見

視覚-触覚ネットワークは、合成データセットの大半の物体において位置誤差と角度誤差で視覚のみのベースラインを上回る。
重度の遮蔽下では、提案手法は約0.4 cmの位置誤差、ベースラインは0.78 cm、角度誤差は約11.5°対13.8°で優位。
触覚入力が4点まで減っても手法は頑健で、視覚のみのベースラインを依然として上回る。
実機ロボットでの定性的デプロイでは、フレーム間安定性が向上し、姿勢の偏差が視覚のみのベースラインより小さい。
アブレーション研究は、サイアミー配線、グローバル特徴、視覚特徴からの利得を示し、特に視覚特徴は角度精度に著しく寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。