[論文レビュー] Generative 6D Pose Estimation via Conditional Flow Matching
本論文は、Flose を提案する。これは、インスタンスレベルの 6D 姿勢推定のための条件付きフローマッチング法で、オーバーラップを意識した幾何と外観特徴を統合し、頑健な RANSAC ベースの登録を用いる。BOP ベンチマークで大きな AR 改善を達成。
Existing methods for instance-level 6D pose estimation typically rely on neural networks that either directly regress the pose in $\mathrm{SE}(3)$ or estimate it indirectly via local feature matching. The former struggle with object symmetries, while the latter fail in the absence of distinctive local features. To overcome these limitations, we propose a novel formulation of 6D pose estimation as a conditional flow matching problem in $\mathbb{R}^3$. We introduce Flose, a generative method that infers object poses via a denoising process conditioned on local features. While prior approaches based on conditional flow matching perform denoising solely based on geometric guidance, Flose integrates appearance-based semantic features to mitigate ambiguities caused by object symmetries. We further incorporate RANSAC-based registration to handle outliers. We validate Flose on five datasets from the established BOP benchmark. Flose outperforms prior methods with an average improvement of +4.5 Average Recall. Project Website : https://tev-fbk.github.io/Flose/
研究の動機と目的
- 直接的 SE(3) 回帰や特徴ベースの間接法が物体対称性や疎な特徴の扱いで抱える制約に対処する。
- インスタンスレベルの 6D 姿勢推定のための R^3 での条件付きフローマッチングを提案する。
- 視覚基盤モデルからの外観ベースのセマンティック特徴を組み込み、対称物体の解釈を曖昧さを解消する。
- RANSAC ベースの登録と ICP 改善による外れ値への頑健性を向上させる。
提案手法
- 6D 姿勢推定を R^3 の条件付きフローマッチング問題として定式化する。
- オーバーラップ認識幾何特徴と外観ベースのセマンティック特徴を統合し、デノイジング過程を条件付けする。
- ノイズのあるサンプルを整列形状へ写像する変位場を学ぶデノイジングネットワーク Psi_Omega を用いる。
- フローモデルを結合特徴と位置エンコーディングで条件付け、デノイジングを誘導する。
- 頑健な姿勢初期化のために RANSAC ベースの Kabsch 解法を適用し、その後 ICP 改善を行う。
![Fig. 3 : Qualitative comparison of Flose (center) vs. an RPF-based [ 24 ] baseline adapted for pose estimation (right). By integrating semantic features and outlier-robust registration, Flose predicts more accurate poses under severe occlusions (rows 1-2) and resolves symmetry ambiguities where pure](https://ar5iv.labs.arxiv.org/html/2602.19719/assets/main/figures/qualitatives/LMO_APE_000788.png)
実験結果
リサーチクエスチョン
- RQ1条件付きフローマッチング in R^3 は、対称性や遮蔽下でインスタンスレベルの物体の 6D 姿勢を正確に推定できるか?
- RQ2外観ベースのセマンティック特徴を幾何的手がかりと組み合わせることで、対称物体の解釈は改善されるか?
- RQ3このフレームワークにおいて RANSAC ベースの登録による頑健な外れ値処理は信頼性の高い姿勢推定に不可欠か?
- RQ4BOP ベンチマークの多様な物体・条件で、Flose は最先端メソッドと比較してどの程度性能を発揮するか?
主な発見
| Method | S.M. | LM-O | T-LESS | TUD-L | IC-BIN | YCB-V | Avg |
|---|---|---|---|---|---|---|---|
| Pix2Pose [22] | 58.8 | 51.2 | 82.0 | 39.0 | 78.8 | 62.0 | |
| ZebraPose [23] | 75.2 | 72.7 | 94.8 | 65.2 | 86.6 | 78.9 | |
| GDRNPP (BOP22) [17] | 77.5 | 87.4 | 96.6 | 72.2 | 92.1 | 85.2 | |
| HccePose(BF) [28] | 80.5 | 87.9 | 94.4 | 72.4 | 91.1 | 85.3 | |
| GDRNPP (BOP23) [17] | 79.4 | 91.4 | 96.4 | 73.7 | 92.8 | 86.7 | |
| Koenig-Hybrid | ✓ | 63.1 | 65.5 | 92.0 | 43.0 | 70.1 | 66.7 |
| CosyPose | ✓ | 71.4 | 70.1 | 93.9 | 64.7 | 86.1 | 77.2 |
| SurfEmb | ✓ | 75.8 | 83.3 | 93.3 | 65.6 | 82.4 | 80.1 |
| CIR | ✓ | 73.4 | 77.6 | 96.8 | 67.6 | 89.3 | 81.0 |
| PFA | ✓ | 79.7 | 85.0 | 96.0 | 67.6 | 88.8 | 83.4 |
| Flose (ours) | ✓ | 86.1 | 86.9 | 98.8 | 74.8 | 92.8 | 87.9 |
| Improv. over row 10 | +6.4 | +1.9 | +2.8 | +7.2 | +4.0 | +4.5 |
- Flose は比較対象データセットカテゴリで最も強力な単一モデル競合に対して平均 AR を 4.5 上回る。
- 対称物体で特に顕著な利得を含む、物体別ベースラインおよび単一モデルベースラインを上回る。
- 外観特徴とオーバーラップ認識幾何の統合により、特に厳密な対応の下で AR が大幅に改善され、インライアの割合も高まる。
- RANSAC ベースの登録と ICP 改善は頑健性を提供し、純粋な幾何学的改良に比べて約 4.3 AR を追加する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。