[論文レビュー] SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation
この論文は、SE(3)拡散モデルを用いて点群登録を行い、ロバストな6D物体姿勢推定を実現する。SE(3)多様体上で変換を徐々にノイズ除去することで、登録専用の変分下界で訓練する。
In this paper, we introduce an SE(3) diffusion model-based point cloud registration framework for 6D object pose estimation in real-world scenarios. Our approach formulates the 3D registration task as a denoising diffusion process, which progressively refines the pose of the source point cloud to obtain a precise alignment with the model point cloud. Training our framework involves two operations: An SE(3) diffusion process and an SE(3) reverse process. The SE(3) diffusion process gradually perturbs the optimal rigid transformation of a pair of point clouds by continuously injecting noise (perturbation transformation). By contrast, the SE(3) reverse process focuses on learning a denoising network that refines the noisy transformation step-by-step, bringing it closer to the optimal transformation for accurate pose estimation. Unlike standard diffusion models used in linear Euclidean spaces, our diffusion model operates on the SE(3) manifold. This requires exploiting the linear Lie algebra $\mathfrak{se}(3)$ associated with SE(3) to constrain the transformation transitions during the diffusion and reverse processes. Additionally, to effectively train our denoising network, we derive a registration-specific variational lower bound as the optimization objective for model learning. Furthermore, we show that our denoising network can be constructed with a surrogate registration model, making our approach applicable to different deep registration networks. Extensive experiments demonstrate that our diffusion registration framework presents outstanding pose estimation performance on the real-world TUD-L, LINEMOD, and Occluded-LINEMOD datasets.
研究の動機と目的
- 現実世界の3Dデータにおいて、ノイズや遮蔽により従来の登録が困難な状況でロバストな6D物体姿勢推定を動機づける。
- SE(3)多様体上で3D登録をデノイジング拡散過程として定式化する。
- 登録専用の変分下界に基づく訓練目的を開発する。
- 代理登録モデルを介して既存の深い登録ネットワークとの統合を可能にする。
- 実世界データセット(TUD-L, LINEMOD, Occluded-LINEMOD)で最先端の姿勢推定を実証する。
提案手法
- SE(3)拡散とSE(3)リバース過程を、LIe代数 se(3)を用いてSE(3)多様体上で定義する。
- Log/Exp in se(3)を用いてH0を単位行列へ補間拡散ステップを通しHtを得る。
- se(3)空間に摂動ノイズを注入し、拡散ステップのためにSE(3)へ写像し戻す。
- 登録専用の変分下界を導出し、ノイズ除去ネットワークを訓練して代理の登録出力を予測する。
- SE(3)でデノising平均をパラメータ化する代理登録モデル fθ を導入し、Ht→0 に対するL1損失で訓練する。
- コサイン拡散スケジュールで訓練し、現実世界条件での頑健性を高めるために拡散/逆過程をバランスさせる。
- 学習したデノisingネットワークを用いてHTからH0へ徐々にノイズ除去して推論する。
実験結果
リサーチクエスチョン
- RQ1SE(3)拡散を効果的に定式化して、3D点群登録と6D姿勢推定を扱えるか。
- RQ2ベイズ的で登録専用の変分目的は、標準回帰損失より学習と頑健性を改善するか。
- RQ3代理の深い登録モデルを拡散フレームワークに組み込み、既存の登録アーキテクチャを活用できるか。
- RQ4ノイズと遮蔽を伴う現実データセットで、従来手法と比較して拡散ベースの登録はどうなるか。
- RQ5姿勢推定の精度と速度に対する拡散ステップと推論戦略の影響はどうか。
主な発見
| モデル | TUD-L 5° | TUD-L 10° | TUD-L 1 cm | TUD-L 2 cm | LINEMOD 5° | LINEMOD 10° | LINEMOD 1 cm | LINEMOD 2 cm | Occluded-LINEMOD 5° | Occluded-LINEMOD 10° | Occluded-LINEMOD 1 cm | Occluded-LINEMOD 2 cm |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ICP | 0.02 | 0.02 | 0.01 | 0.14 | 0.00 | 0.01 | 0.04 | 0.27 | 0.01 | 0.01 | 0.07 | 0.36 |
| FGR | 0.00 | 0.01 | 0.04 | 0.25 | 0.00 | 0.00 | 0.05 | 0.31 | 0.00 | 0.00 | 0.08 | 0.43 |
| TEASER | 0.13 | 0.17 | 0.03 | 0.22 | 0.01 | 0.03 | 0.03 | 0.21 | 0.01 | 0.02 | 0.04 | 0.26 |
| S4PCS | 0.30 | 0.50 | 0.05 | 0.40 | 0.02 | 0.09 | 0.04 | 0.31 | 0.01 | 0.03 | 0.06 | 0.31 |
| IDAM | 0.03 | 0.05 | 0.02 | 0.08 | 0.00 | 0.01 | 0.03 | 0.16 | 0.00 | 0.02 | 0.07 | 0.26 |
| FMR | 0.02 | 0.09 | 0.02 | 0.06 | 0.00 | 0.01 | 0.07 | 0.17 | 0.00 | 0.00 | 0.09 | 0.18 |
| RGM | 0.00 | 0.00 | 0.02 | 0.03 | 0.00 | 0.00 | 0.07 | 0.15 | 0.00 | 0.00 | 0.09 | 0.22 |
| RIENet | 0.00 | 0.00 | 0.06 | 0.11 | – | – | – | – | – | – | – | – |
| MN-IDAM | 0.36 | 0.46 | 0.23 | 0.47 | 0.01 | 0.07 | 0.13 | 0.38 | 0.02 | 0.08 | 0.15 | 0.44 |
| MN-DCP | 0.70 | 0.81 | 0.71 | 0.86 | 0.10 | 0.27 | 0.26 | 0.60 | 0.07 | 0.19 | 0.24 | 0.57 |
| DCP | 0.23 | 0.62 | 0.04 | 0.26 | 0.06 | 0.22 | 0.11 | 0.27 | 0.03 | 0.12 | 0.11 | 0.27 |
| Diff-DCP | 0.65 | 0.85 | 0.73 | 0.94 | 0.22 | 0.51 | 0.65 | 0.82 | 0.10 | 0.29 | 0.38 | 0.57 |
| RPMNet | 0.73 | 0.97 | 0.89 | 0.94 | 0.05 | 0.18 | 0.22 | 0.45 | 0.03 | 0.13 | 0.22 | 0.40 |
| Diff-RPMNet | 0.90 | 0.98 | 0.98 | 0.99 | 0.18 | 0.47 | 0.51 | 0.72 | 0.12 | 0.29 | 0.36 | 0.52 |
- 拡散ベースの登録(Diff-DCP, Diff-RPMNet)は、ベースラインと比較して現実世界データで高い精度を達成。
- Diff-RPMNetは、回転・平行の基準全体で最高の登録精度をTUD-L、LINEMOD、Occluded-LINEMODで示す。
- 提案するSE(3)拡散フレームワークは、ノイズと遮蔽に対する頑健性を向上させ、多様な姿勢仮説を生成しベイズ後方更新を導く。
- 代理登録モデルを統合してデノising平均をパラメータ化でき、多くの深い登録ネットワークと互換性を持たせられる。
- 登録専用の変分下界を用いた訓練は、SE(3)変換のデノisingネットワークを効果的に最適化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。