QUICK REVIEW

[논문 리뷰] VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

Snehal Dikhale, Karankumar Patel|arXiv (Cornell University)|2026. 01. 04.

Advanced Sensor and Energy Harvesting Materials인용 수 0

한 줄 요약

본 논문은 시각과 촉각 데이터를 융합하여 로봇 핸드에 쥔 물체의 6D 자세를 추정하는 visuo-tactile 네트워크를 제시하며, 시각 전용 방법보다 정확도가 향상되었고 합성 데이터에서 실제 로봇으로의 전이가 가능함을 보인다.

ABSTRACT

Knowledge of the 6D pose of an object can benefit in-hand object manipulation. In-hand 6D object pose estimation is challenging because of heavy occlusion produced by the robot's grippers, which can have an adverse effect on methods that rely on vision data only. Many robots are equipped with tactile sensors at their fingertips that could be used to complement vision data. In this paper, we present a method that uses both tactile and vision data to estimate the pose of an object grasped in a robot's hand. To address challenges like lack of standard representation for tactile data and sensor fusion, we propose the use of point clouds to represent object surfaces in contact with the tactile sensor and present a network architecture based on pixel-wise dense fusion. We also extend NVIDIA's Deep Learning Dataset Synthesizer to produce synthetic photo-realistic vision data and corresponding tactile point clouds. Results suggest that using tactile data in addition to vision data improves the 6D pose estimate, and our network generalizes successfully from synthetic training to real physical robots.

연구 동기 및 목표

무거운 그리퍼 가림으로 시각 전용 방법의 한계를 보이는 핸드 내 물체의 6D 자세 추정을 동기화한다.
촉각 센서 불변 표현을 물체 표면 포인트 클라우드로서 손가락 접촉 부위에서 제안한다.
2-브랜치 visuo-tactile 네트워크를 개발하여 픽셀 단위 융합과 포인트 단위 융합으로 6D 자세를 추정한다.
여러 YCB 물체에 대해 사진 실물과 같은 비주얼 데이터를 합성하고 촉각 포인트 구름을 동반하도록 NDDS를 확장한다.
촉각 데이터를 도입할 때 자세 추정이 향상되고 실제 로봇 시스템으로의 전이가 평가된다.

제안 방법

촉각 데이터를 손가락-물체 접촉 위치에서의 물체 표면 포인트 클라우드로 표현하여 센서 간 촉각 입력의 표준화를 수행한다.
시각 및 촉각 가지를 가진 이채널 네트워크를 사용하며; 시각 채널에서 색상+깊이를 픽셀 단위의 밀집 융합으로, 촉각 채널에서 촉각-깊이를 촉각 표면 포인트와 융합한다.
시각과 촉각 임베딩에서 얻은 글로벌 피처를 통해 단위당 변환, 회전, 신뢰도 출력이 있는 포즈 추정기를 정보를 제공하도록 한다.
회전 추정을 위해 시메이즈(Siamese) 아키텍처를 채택하여 시각 스트림과 촉각 스트림을 정렬한다.
11개의 YCB 물체에 대해 20,000 샘플씩 포함된 NVIDIA NDDS에서 확장된 합성 비주얼-촉각 데이터세트로 학습한다.

실험 결과

연구 질문

RQ1촉각 데이터를 시각과 함께 도입하는 것이 가려진 상태에서 핸드 내 물체의 6D 포즈 추정에 실질적인 향상을 가져오는가?
RQ2촉각 센서 불변 표현이 서로 다른 그리퍼/센서 간의 효과적인 시각-촉각 융합을 가능하게 하는가?
RQ3합성 시각-촉각 데이터가 실제 로봇 시스템으로 일반화되는가?
RQ4가림 수준과 촉각 접촉 지점의 수가 자세 추정 정확도에 어떤 영향을 미치는가?
RQ5제안된 방법이 시각 전용 베이스라인 및 최첨단 시각 방법과 비교하여 어떤 차이가 있는가?

주요 결과

Visuo-tactile 네트워크가 합성 데이터 세트의 대부분 물체에서 위치 및 각도 오차 측면에서 시각 전용 베이스라인보다 우수하다.
강한 가림 하에서 제안된 방법은 위치 오차가 약 0.4 cm, 베스트라인은 0.78 cm, 각도 오차는 11.5° 대 13.8°로 성능이 더 낫다.
촉각 입력이 4점으로 감소하더라도 방법은 여전히 강건하며 시각 전용 베이스라인보다 앞으로 나아간다.
실물 로봇 배치에서 프레임 간 안정성이 더 좋고 포즈 편차가 감소하는 것을 정성적으로 확인할 수 있다.
ablation 연구에서 시암-배선, 글로벌 피처, 시각 피처로 인한 이득이 나타나며, 특히 시각 피처가 각도 정확도에 크게 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.