Skip to main content
QUICK REVIEW

[论文解读] SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation

Haobo Jiang, Mathieu Salzmann|arXiv (Cornell University)|Oct 26, 2023
3D Shape Modeling and Analysis被引用 10
一句话总结

本论文提出一个 SE(3) 扩散模型,用于点云配准,以实现鲁棒的 6D 物体姿态估计,通过在 SE(3) 流形上逐步去噪变换并使用一个针对配准的变分下界进行训练。

ABSTRACT

In this paper, we introduce an SE(3) diffusion model-based point cloud registration framework for 6D object pose estimation in real-world scenarios. Our approach formulates the 3D registration task as a denoising diffusion process, which progressively refines the pose of the source point cloud to obtain a precise alignment with the model point cloud. Training our framework involves two operations: An SE(3) diffusion process and an SE(3) reverse process. The SE(3) diffusion process gradually perturbs the optimal rigid transformation of a pair of point clouds by continuously injecting noise (perturbation transformation). By contrast, the SE(3) reverse process focuses on learning a denoising network that refines the noisy transformation step-by-step, bringing it closer to the optimal transformation for accurate pose estimation. Unlike standard diffusion models used in linear Euclidean spaces, our diffusion model operates on the SE(3) manifold. This requires exploiting the linear Lie algebra $\mathfrak{se}(3)$ associated with SE(3) to constrain the transformation transitions during the diffusion and reverse processes. Additionally, to effectively train our denoising network, we derive a registration-specific variational lower bound as the optimization objective for model learning. Furthermore, we show that our denoising network can be constructed with a surrogate registration model, making our approach applicable to different deep registration networks. Extensive experiments demonstrate that our diffusion registration framework presents outstanding pose estimation performance on the real-world TUD-L, LINEMOD, and Occluded-LINEMOD datasets.

研究动机与目标

  • 在真实世界的 3D 数据中推动鲁棒的 6D 物体姿态估计,其中传统配准在噪声和遮挡下表现不佳。
  • 将三维配准表述为在 SE(3) 流形上的去噪扩散过程。
  • 开发一个基于针对配准的变分下界的训练目标。
  • 通过一个代理配准模型使其能够与现有的深度配准网络集成。
  • 在真实世界数据集(TUD-L、LINEMOD、Occluded-LINEMOD)上展示最先进的姿态估计。

提出的方法

  • 通过李代数 se(3) 定义在 SE(3) 流形上运行的 SE(3) 扩散和 SE(3) 反向过程。
  • 使用基于插值的扩散步骤,通过 se(3) 的对数/指数映射将 H0 映射到单位元素以获得 Ht。
  • 在 se(3) 空间注入扰动噪声并映射回 SE(3) 以进行扩散步骤。
  • 推导一个针对配准的变分下界,并训练去噪网络以预测代理的配准输出。
  • 引入代理配准模型 fθ 来参数化 SE(3) 中的去噪均值,并以对 Ht→0 的 L1 损失进行训练。
  • 采用余弦扩散调度进行训练,并平衡扩散/反向步骤以提高在真实世界条件下的鲁棒性。
  • 通过使用学习到的去噪网络逐步从 HT 去噪到 H0 进行推断。

实验结果

研究问题

  • RQ1是否可以有效地将 SE(3) 扩散公式化,以处理用于 6D 姿态估计的三维点云配准?
  • RQ2贝叶斯、针对配准的变分目标是否比标准回归损失在学习和鲁棒性方面有提升?
  • RQ3是否可以将代理深度配准模型集成到扩散框架中,以利用现有的配准架构?
  • RQ4在带有噪声和遮挡的真实世界数据集上,基于扩散的配准相较于传统方法的表现如何?
  • RQ5扩散步骤与推断策略对姿态估计的精度与速度有何影响?

主要发现

模型TUD-L 5°TUD-L 10°TUD-L 1 cmTUD-L 2 cmLINEMOD 5°LINEMOD 10°LINEMOD 1 cmLINEMOD 2 cmOccluded-LINEMOD 5°Occluded-LINEMOD 10°Occluded-LINEMOD 1 cmOccluded-LINEMOD 2 cm
ICP0.020.020.010.140.000.010.040.270.010.010.070.36
FGR0.000.010.040.250.000.000.050.310.000.000.080.43
TEASER0.130.170.030.220.010.030.030.210.010.020.040.26
S4PCS0.300.500.050.400.020.090.040.310.010.030.060.31
IDAM0.030.050.020.080.000.010.030.160.000.020.070.26
FMR0.020.090.020.060.000.010.070.170.000.000.090.18
RGM0.000.000.020.030.000.000.070.150.000.000.090.22
RIENet0.000.000.060.11
MN-IDAM0.360.460.230.470.010.070.130.380.020.080.150.44
MN-DCP0.700.810.710.860.100.270.260.600.070.190.240.57
DCP0.230.620.040.260.060.220.110.270.030.120.110.27
Diff-DCP0.650.850.730.940.220.510.650.820.100.290.380.57
RPMNet0.730.970.890.940.050.180.220.450.030.130.220.40
Diff-RPMNet0.900.980.980.990.180.470.510.720.120.290.360.52
  • 基于扩散的配准(Diff-DCP、Diff-RPMNet)在真实世界数据集上相较于基线实现了更高的精度。
  • Diff-RPMNet 在 TUD-L、LINEMOD 和 Occluded-LINEMOD 上的旋转与平移指标均达到最高的配准精度。
  • 提出的 SE(3) 扩散框架通过生成多样的姿态假设并通过贝叶斯后验引导反向更新,提升对噪声和遮挡的鲁棒性。
  • 可以集成代理配准模型来参数化去噪均值,使其兼容多种深度配准网络。
  • 使用针对配准的变分下界进行训练,可以有效优化对 SE(3) 变换的去噪网络。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。