Skip to main content
QUICK REVIEW

[논문 리뷰] Real-time Rendering-based Surgical Instrument Tracking via Evolutionary Optimization

Hanyang Hu, Zekai Liang|arXiv (Cornell University)|2026. 03. 12.
Surgical Simulation and Training인용 수 0
한 줄 요약

본 논문은 CMA-ES와 배치 렌더링을 이용해 실시간 렌더링 기반 추적 프레임워크를 제안하며, CMA-ES를 이용한 배치 렌더링으로 엔드 이펙터 포즈와 관절 구성을 함께 추정하여, 기울기 기반 방법보다 더 빠르고 강인한 추적 성능을 달성하고 단일 손 및 양손 구성을 확장합니다.

ABSTRACT

Accurate and efficient tracking of surgical instruments is fundamental for Robot-Assisted Minimally Invasive Surgery. Although vision-based robot pose estimation has enabled markerless calibration without tedious physical setups, reliable tool tracking for surgical robots still remains challenging due to partial visibility and specialized articulation design of surgical instruments. Previous works in the field are usually prone to unreliable feature detections under degraded visual quality and data scarcity, whereas rendering-based methods often struggle with computational costs and suboptimal convergence. In this work, we incorporate CMA-ES, an evolutionary optimization strategy, into a versatile tracking pipeline that jointly estimates surgical instrument pose and joint configurations. Using batch rendering to efficiently evaluate multiple pose candidates in parallel, the method significantly reduces inference time and improves convergence robustness. The proposed framework further generalizes to joint angle-free and bi-manual tracking settings, making it suitable for both vision feedback control and online surgery video calibration. Extensive experiments on synthetic and real-world datasets demonstrate that the proposed method significantly outperforms prior approaches in both accuracy and runtime.

연구 동기 및 목표

  • Partial visibility와 노이즈가 있는 관절 읽기 하에서 로봇 보조 최소 침습 수술(Robot-assisted Minimally Invasive Surgery)용 관절 도구의 정확하고 효율적인 포즈 추정을 동기화한다.
  • 렌더링 기반 추적 파이프라인을 개발하여 도구의 포즈와 보이는 관절 각도를 진화적 최적화 접근으로 함께 추정한다.
  • 포즈 가설의 병렬 평가와 배치 렌더링을 통해 강인성과 실시간 성능을 향상시킨다.
  • 프레임워크를 관절 각도 무나사 및 양손 추적으로 확장하여 비전 기반 제어 및 온라인 비디오 보정에 다용도적으로 사용한다.

제안 방법

  • 도구 추적을 SE(3)에서의 엔드 이펙터 포즈와 세 가지 보이는 관절 각도에 대한 비선형 최적화 문제로 형식화한다.
  • 상태 변수에 대한 가우시안 분포를 검색하기 위해 CMA-ES를 사용하고, 적합도는 렌더-매칭 목적을 통해 평가한다.
  • GPU 가속 병렬 평가를 가능하게 하기 위해 배치된 포워드 키네마틱스와 렌더링을 활용한다.
  • 세그먼트화 노이즈에 대한 강인성을 높이기 위해 렌딩(term)과 키포인트 정렬(term)을 포함하는 통합 손실 함수를 정의한다.
  • 샤프트 회전을 해제하고 구조화된 샘플링을 가능하게 하는 look-at 회전으로 포즈를 표현하며, 관절 한계를 강제하기 위한 코사인 기반 재파라미터화를 적용한다.
  • Estimate의 시간적 안정화를 위해 칼만-유사 모션 모델로 시간 필터링을 적용한다.
Figure 1: Skeleton overlays of the top- $5$ CMA-ES samples across successive iterations. At each iteration, CMA-ES draws a population of candidate poses from a Gaussian distribution, evaluates their fitness using render-and-match objectives, and updates the distribution toward better solutions. With
Figure 1: Skeleton overlays of the top- $5$ CMA-ES samples across successive iterations. At each iteration, CMA-ES draws a population of candidate poses from a Gaussian distribution, evaluates their fitness using render-and-match objectives, and updates the distribution toward better solutions. With

실험 결과

연구 질문

  • RQ1배치 렌더링이 포함된 CMA-ES가 단안 RGB 입력으로부터 관절 도구의 실시간이고 강인한 포즈 추정을 달성할 수 있는가?
  • RQ2포즈와 보이는 관절 각도를 함께 추정하는 것이 노이즈가 있는 측정에서의 추적 정확도를 그래디언트 기반 방법과 비교해 향상시키는가?
  • RQ3프레임워크가 관절 각도 무와 양손 추적 시나리오에 얼마나 잘 일반화되는가?
  • RQ4키포인트 손실 및 세그먼테이션 품질이 추적 성능에 어떤 영향을 미치는가?
  • RQ5다중 도구 설정에서 로봇 학습을 위한 온라인 보정에 이 접근법이 어떻게 기여하는가?

주요 결과

  • CMA-ES with batch rendering은 합성 및 실제 데이터 모두에서 그래디언트 기반 기준선보다 더 높은 정확도와 더 빠른 프레임당 실행 시간을 달성한다.
  • 관절 읽기가 가능할 때 포즈와 보이는 관절 각도를 함께 추정하는 것이 전체 성능에 최적의 결과를 낳는다.
  • 제안 방법은 수집된 데이터에서 온라인 도구 추적의 1k-입자 입자 필터 기준선을 능가하며 더 나은 정렬과 더 매끄러운 추적을 보인다.
  • Joint-angle-free 초기화가 있는 온라인 버전은 초기화가 좋지 않아도 강건하며 그래디언트 기반 방법보다 우수하다.
  • 분리된 CMA-ES 블록으로 양손 추적을 수행하면 복잡도는 줄이면서도 두 로봇 팔의 공동 최적화를 공유 프레임워크 내에서 가능하게 한다.
Figure 2: Overview of the proposed framework. Given RGB video frames, segmentation masks and tool-tip detections are produced to define a render-and-match objective optimized via CMA-ES. At each iteration, pose candidates are sampled from the current distribution, evaluated in parallel through batch
Figure 2: Overview of the proposed framework. Given RGB video frames, segmentation masks and tool-tip detections are produced to define a render-and-match objective optimized via CMA-ES. At each iteration, pose candidates are sampled from the current distribution, evaluated in parallel through batch

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.