[논문 리뷰] Generative 6D Pose Estimation via Conditional Flow Matching
논문은 overlapped-aware 기하학과 appearance 특징을 융합하고 강건한 RANSAC 기반 등록을 사용하는 인스턴스 단위 6D 자세 추정용 조건부 플로우 매칭 방법인 Flose를 제시하며, BOP 벤치마크에서 AR 향상을 달성한다.
Existing methods for instance-level 6D pose estimation typically rely on neural networks that either directly regress the pose in $\mathrm{SE}(3)$ or estimate it indirectly via local feature matching. The former struggle with object symmetries, while the latter fail in the absence of distinctive local features. To overcome these limitations, we propose a novel formulation of 6D pose estimation as a conditional flow matching problem in $\mathbb{R}^3$. We introduce Flose, a generative method that infers object poses via a denoising process conditioned on local features. While prior approaches based on conditional flow matching perform denoising solely based on geometric guidance, Flose integrates appearance-based semantic features to mitigate ambiguities caused by object symmetries. We further incorporate RANSAC-based registration to handle outliers. We validate Flose on five datasets from the established BOP benchmark. Flose outperforms prior methods with an average improvement of +4.5 Average Recall. Project Website : https://tev-fbk.github.io/Flose/
연구 동기 및 목표
- 객체 대칭 및 희박한 특징 처리에서 직접 SE(3) 회귀 및 특징 기반 간접 방법의 한계를 해결한다.
- R^3에서 인스턴스 단위 6D 자세 추정을 위한 조건부 플로우 매칭 형식을 제안한다.
- 대칭 물체의 혼동을 해결하기 위해 비전 기초 모델로부터의 appearance 기반 시맨틱 특징을 도입한다.
- RANSAC 기반 등록과 ICP 보정을 통해 이상치에 대한 강건성을 향상시킨다.
제안 방법
- 6D 자세 추정을 R^3에서 조건부 플로우 매칭 문제로 형식화한다.
- 겹침에 민감한 기하학적 특징과 appearance 기반 시맨틱 특징을 융합하여 denoising 과정을 조건화한다.
- Psi_Omega를 이용한 denoising 네트워크를 통해 노이즈 샘플을 정렬된 형태로 매핑하는 변위장을 학습한다.
- 플로우 모델을 결합된 특징과 위치 인코딩으로 조건화하여 denoising을 안내한다.
- 강건한 자세 초기화를 위한 RANSAC 기반 Kabsch 해를 적용하고 ICP 보정을 수행한다.
![Fig. 3 : Qualitative comparison of Flose (center) vs. an RPF-based [ 24 ] baseline adapted for pose estimation (right). By integrating semantic features and outlier-robust registration, Flose predicts more accurate poses under severe occlusions (rows 1-2) and resolves symmetry ambiguities where pure](https://ar5iv.labs.arxiv.org/html/2602.19719/assets/main/figures/qualitatives/LMO_APE_000788.png)
실험 결과
연구 질문
- RQ1조건부 플로우 매칭이 대칭성과 가려짐 하에서도 인스턴스 단위 객체의 6D 자세를 정확히 추정할 수 있는가?
- RQ2기하학적 단서와 함께 appearance 기반 시맨틱 특징을 도입하면 대칭 객체의 구분이 개선되는가?
- RQ3RANSAC 기반 등록을 통한 이상치 처리의 강건성이 이 프레임워크에서 신뢰할 만한 자세 추정에 필수적인가?
- RQ4Flose가 다양한 물체와 조건에서 BOP 벤치마크와의 비교에서 최첨단 방법과 어떻게 성능을 비교하는가?
주요 결과
| 방법 | S.M. | LM-O | T-LESS | TUD-L | IC-BIN | YCB-V | 평균 |
|---|---|---|---|---|---|---|---|
| Pix2Pose [22] | 58.8 | 51.2 | 82.0 | 39.0 | 78.8 | 62.0 | |
| ZebraPose [23] | 75.2 | 72.7 | 94.8 | 65.2 | 86.6 | 78.9 | |
| GDRNPP (BOP22) [17] | 77.5 | 87.4 | 96.6 | 72.2 | 92.1 | 85.2 | |
| HccePose(BF) [28] | 80.5 | 87.9 | 94.4 | 72.4 | 91.1 | 85.3 | |
| GDRNPP (BOP23) [17] | 79.4 | 91.4 | 96.4 | 73.7 | 92.8 | 86.7 | |
| Koenig-Hybrid | ✓ | 63.1 | 65.5 | 92.0 | 43.0 | 70.1 | 66.7 |
| CosyPose | ✓ | 71.4 | 70.1 | 93.9 | 64.7 | 86.1 | 77.2 |
| SurfEmb | ✓ | 75.8 | 83.3 | 93.3 | 65.6 | 82.4 | 80.1 |
| CIR | ✓ | 73.4 | 77.6 | 96.8 | 67.6 | 89.3 | 81.0 |
| PFA | ✓ | 79.7 | 85.0 | 96.0 | 67.6 | 88.8 | 83.4 |
| Flose (ours) | ✓ | 86.1 | 86.9 | 98.8 | 74.8 | 92.8 | 87.9 |
| Improv. over row 10 | +6.4 | +1.9 | +2.8 | +7.2 | +4.0 | +4.5 |
- Flose는 비교 데이터셋 카테고리에서 가장 강력한 단일 모델 경쟁자 대비 평균 AR을 4.5 향상시킨다.
- Flose는 물체별 베이스라인 및 단일 모델 베이스라인보다 우수하며, 대칭 물체에서 현저한 이득을 보여준다.
- appearance 특징과 overlapped-aware 기하를 결합하면 일치도에 따른 엄격한 매칭 하에서 AR가 크게 향상되고 inlier 비율이 높아진다.
- RANSAC 기반 등록과 ICP 보정은 강건성을 제공하고 순수 기하 보정 대비 약 4.3의 AR 향상을 더한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.