Skip to main content
QUICK REVIEW

[논문 리뷰] Geometrically Plausible Object Pose Refinement using Differentiable Simulation

Anil Zeybek, R. Newbury|arXiv (Cornell University)|2026. 03. 22.
Robot Manipulation and Learning인용 수 0
한 줄 요약

이 논문은 differentiable physics, differentiable rendering, visuo-tactile sensing를 이용한 다중 모달 포즈 정제 프레임워크를 제안하여 물리적 타당성을 보장하면서 포즈 정확도를 향상시키고, 특히 초기 불확실성이 높은 상황에서 ICP 기반선보다 우수함.

ABSTRACT

State-of-the-art object pose estimation methods are prone to generating geometrically infeasible pose hypotheses. This problem is prevalent in dexterous manipulation, where estimated poses often intersect with the robotic hand or are not lying on a support surface. We propose a multi-modal pose refinement approach that combines differentiable physics simulation, differentiable rendering and visuo-tactile sensing to optimize object poses for both spatial accuracy and physical consistency. Simulated experiments show that our approach reduces the intersection volume error between the object and robotic hand by 73\% when the initial estimate is accurate and by over 87\% under high initial uncertainty, significantly outperforming standard ICP-based baselines. Furthermore, the improvement in geometric plausibility is accompanied by a concurrent reduction in translation and orientation errors. Achieving pose estimation that is grounded in physical reality while remaining faithful to multi-modal sensor inputs is a critical step toward robust in-hand manipulation.

연구 동기 및 목표

  • 물리적 타당성을 강제하여 손재주 있는 손 안에서의 6D 물체 포즈 정제를 향상시키는 것.
  • visuo-tactile 센싱과 함께 differentiable physics 및 differentiable rendering를 통합하는 것.
  • 센서 충실도와 물리적 제약 간의 균형을 맞추기 위해 다목적 손실을 활용하는 것.
  • 그래디언트 항목의 동적 우선순위를 정하기 위한 휴리스틱 그래디언트 융합 전략을 개발하는 것.
  • 불확실한 초기 포즈에 대한 강건성을 평가하고 ICP 기반선과 비교하는 것.

제안 방법

  • SE(3)에서 물체 포즈에 대한 해석적 그래디언트를 제공하기 위해 미분 가능 물리 시뮬레이션을 사용한다.
  • 네 가지 그래디언트 소스를 결합한다: 미분 가능 물리, 미분 가능 렌더링, 메쉬-깊이 거리, 메쉬-촉각 거리.
  • 픽셀당 신뢰도로 회귀하는 6D 포즈를 예측하는 visuo-tactile 네트워크에서 초기 포즈를 얻는다.
  • 회전 정렬을 강조하기 위해 L2 평행이동 정규화를 포함하는 다목적 손실을 적용한다.
  • 과거 개선에 따라 그래디언트 소스의 가중치를 동적으로 조정하여 포즈를 업데이트한다.
  • 물리 시뮬레이션이 계속 미세 조정되는 동안 최상의 시각적 정렬을 보존하기 위한 체크포인트 메커니즘을 구현한다.

실험 결과

연구 질문

  • RQ1시각-촉각 데이터와 결합된 미분 가능 물리 및 렌더링이 ICP를 넘어 기하학적으로 타당한 6D 포즈 정제를 제공할 수 있는가?
  • RQ2초기 포즈 불확실성이 큰 상황에서 다중 모달 그래디언트 융합의 성능은 어떤가?
  • RQ3촉각 정보의 포함이 물리적 타당성과 포즈 정확도에 미치는 영향은 무엇인가?
  • RQ4비침입과 중력 지지 접촉을 강제하는 동시에 센서 데이터에 대한 충실도를 유지하는가?

주요 결과

방법포즈 평행이동 오차 (cm)방위 오차 (deg)기하학적 타당성 지표 CA (cm^2)간섭 부피 IV (cm^3)|ΔCA| (cm^2)|ΔIV| (cm^3)
실제 기준--36.280.1700
초기 포즈0.656.9839.052.362.772.19
ICP3.4643.0165.2628.7328.9828.56
ICP w/ Checkpointing1.3013.7748.318.7112.038.54
Ours0.626.6941.730.765.450.59
  • 제안된 방법은 초기 추정이 정확할 때 초기 포즈와 비교하여 교차 부피 오차를 73.1% 감소시킨다.
  • 높은 초기 불확실성 하에서 교차 부피 오차가 87% 이상 감소한다.
  • 평균 위치 오차는 4.6% 감소하고 방향 오차는 4.1% 감소한다(기준 초기 추정 대비).
  • 이 방법은 ICP 기반선에 비해 포즈 평행이동 오차(PE)와 방향 오차(OE)를 감소시킨다.
  • 기하학적 타당성 개선(CA 및 IV 지표)이 오차 감소를 수반하며, 더 물리적으로 일관된 포즈를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.