Skip to main content
QUICK REVIEW

[논문 리뷰] Generative 6D Pose Estimation via Conditional Flow Matching

Amir Hamza, Davide Boscaini|arXiv (Cornell University)|2026. 02. 23.
Robot Manipulation and Learning인용 수 0
한 줄 요약

논문은 overlapped-aware 기하학과 appearance 특징을 융합하고 강건한 RANSAC 기반 등록을 사용하는 인스턴스 단위 6D 자세 추정용 조건부 플로우 매칭 방법인 Flose를 제시하며, BOP 벤치마크에서 AR 향상을 달성한다.

ABSTRACT

Existing methods for instance-level 6D pose estimation typically rely on neural networks that either directly regress the pose in $\mathrm{SE}(3)$ or estimate it indirectly via local feature matching. The former struggle with object symmetries, while the latter fail in the absence of distinctive local features. To overcome these limitations, we propose a novel formulation of 6D pose estimation as a conditional flow matching problem in $\mathbb{R}^3$. We introduce Flose, a generative method that infers object poses via a denoising process conditioned on local features. While prior approaches based on conditional flow matching perform denoising solely based on geometric guidance, Flose integrates appearance-based semantic features to mitigate ambiguities caused by object symmetries. We further incorporate RANSAC-based registration to handle outliers. We validate Flose on five datasets from the established BOP benchmark. Flose outperforms prior methods with an average improvement of +4.5 Average Recall. Project Website : https://tev-fbk.github.io/Flose/

연구 동기 및 목표

  • 객체 대칭 및 희박한 특징 처리에서 직접 SE(3) 회귀 및 특징 기반 간접 방법의 한계를 해결한다.
  • R^3에서 인스턴스 단위 6D 자세 추정을 위한 조건부 플로우 매칭 형식을 제안한다.
  • 대칭 물체의 혼동을 해결하기 위해 비전 기초 모델로부터의 appearance 기반 시맨틱 특징을 도입한다.
  • RANSAC 기반 등록과 ICP 보정을 통해 이상치에 대한 강건성을 향상시킨다.

제안 방법

  • 6D 자세 추정을 R^3에서 조건부 플로우 매칭 문제로 형식화한다.
  • 겹침에 민감한 기하학적 특징과 appearance 기반 시맨틱 특징을 융합하여 denoising 과정을 조건화한다.
  • Psi_Omega를 이용한 denoising 네트워크를 통해 노이즈 샘플을 정렬된 형태로 매핑하는 변위장을 학습한다.
  • 플로우 모델을 결합된 특징과 위치 인코딩으로 조건화하여 denoising을 안내한다.
  • 강건한 자세 초기화를 위한 RANSAC 기반 Kabsch 해를 적용하고 ICP 보정을 수행한다.
Fig. 3 : Qualitative comparison of Flose (center) vs. an RPF-based [ 24 ] baseline adapted for pose estimation (right). By integrating semantic features and outlier-robust registration, Flose predicts more accurate poses under severe occlusions (rows 1-2) and resolves symmetry ambiguities where pure
Fig. 3 : Qualitative comparison of Flose (center) vs. an RPF-based [ 24 ] baseline adapted for pose estimation (right). By integrating semantic features and outlier-robust registration, Flose predicts more accurate poses under severe occlusions (rows 1-2) and resolves symmetry ambiguities where pure

실험 결과

연구 질문

  • RQ1조건부 플로우 매칭이 대칭성과 가려짐 하에서도 인스턴스 단위 객체의 6D 자세를 정확히 추정할 수 있는가?
  • RQ2기하학적 단서와 함께 appearance 기반 시맨틱 특징을 도입하면 대칭 객체의 구분이 개선되는가?
  • RQ3RANSAC 기반 등록을 통한 이상치 처리의 강건성이 이 프레임워크에서 신뢰할 만한 자세 추정에 필수적인가?
  • RQ4Flose가 다양한 물체와 조건에서 BOP 벤치마크와의 비교에서 최첨단 방법과 어떻게 성능을 비교하는가?

주요 결과

방법S.M.LM-OT-LESSTUD-LIC-BINYCB-V평균
Pix2Pose [22]58.851.282.039.078.862.0
ZebraPose [23]75.272.794.865.286.678.9
GDRNPP (BOP22) [17]77.587.496.672.292.185.2
HccePose(BF) [28]80.587.994.472.491.185.3
GDRNPP (BOP23) [17]79.491.496.473.792.886.7
Koenig-Hybrid63.165.592.043.070.166.7
CosyPose71.470.193.964.786.177.2
SurfEmb75.883.393.365.682.480.1
CIR73.477.696.867.689.381.0
PFA79.785.096.067.688.883.4
Flose (ours)86.186.998.874.892.887.9
Improv. over row 10+6.4+1.9+2.8+7.2+4.0+4.5
  • Flose는 비교 데이터셋 카테고리에서 가장 강력한 단일 모델 경쟁자 대비 평균 AR을 4.5 향상시킨다.
  • Flose는 물체별 베이스라인 및 단일 모델 베이스라인보다 우수하며, 대칭 물체에서 현저한 이득을 보여준다.
  • appearance 특징과 overlapped-aware 기하를 결합하면 일치도에 따른 엄격한 매칭 하에서 AR가 크게 향상되고 inlier 비율이 높아진다.
  • RANSAC 기반 등록과 ICP 보정은 강건성을 제공하고 순수 기하 보정 대비 약 4.3의 AR 향상을 더한다.
Generative 6D Pose Estimation via Conditional Flow Matching

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.