QUICK REVIEW

[논문 리뷰] SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation

Haobo Jiang, Mathieu Salzmann|arXiv (Cornell University)|2023. 10. 26.

3D Shape Modeling and Analysis인용 수 10

한 줄 요약

이 논문은 SE(3) 확산 모델을 도입하여 SE(3) 매니폴드에서 변환을 점진적으로 노이즈 제거하여 6D 물체 자세 추정을 강건하게 수행하고, 등록에 특화된 변분 하한식을 이용한 학습 objective를 제시합니다.

ABSTRACT

In this paper, we introduce an SE(3) diffusion model-based point cloud registration framework for 6D object pose estimation in real-world scenarios. Our approach formulates the 3D registration task as a denoising diffusion process, which progressively refines the pose of the source point cloud to obtain a precise alignment with the model point cloud. Training our framework involves two operations: An SE(3) diffusion process and an SE(3) reverse process. The SE(3) diffusion process gradually perturbs the optimal rigid transformation of a pair of point clouds by continuously injecting noise (perturbation transformation). By contrast, the SE(3) reverse process focuses on learning a denoising network that refines the noisy transformation step-by-step, bringing it closer to the optimal transformation for accurate pose estimation. Unlike standard diffusion models used in linear Euclidean spaces, our diffusion model operates on the SE(3) manifold. This requires exploiting the linear Lie algebra $\mathfrak{se}(3)$ associated with SE(3) to constrain the transformation transitions during the diffusion and reverse processes. Additionally, to effectively train our denoising network, we derive a registration-specific variational lower bound as the optimization objective for model learning. Furthermore, we show that our denoising network can be constructed with a surrogate registration model, making our approach applicable to different deep registration networks. Extensive experiments demonstrate that our diffusion registration framework presents outstanding pose estimation performance on the real-world TUD-L, LINEMOD, and Occluded-LINEMOD datasets.

연구 동기 및 목표

현실 세계의 3D 데이터에서 전통적 등록이 노이즈와 가려짐으로 어려움을 겪는 상황에서 강건한 6D 물체 자세 추정을 동기화한다.
SE(3) 매니폴드에서 3D 등록을 노이즈 제거 확산(process)로 형식화한다.
등록에 특화된 변분 하한을 기반으로 학습 objective를 개발한다.
대리 등록 모델을 통해 기존의 심층 등록 네트워크와의 통합을 가능하게 한다.
실세계 데이터셋(TUD-L, LINEMOD, Occluded-LINEMOD)에서 최첨단 자세 추정 성능을 시연한다.

제안 방법

SE(3) 확산 및 SE(3) 역과정을 Lie 대수 se(3)를 통해 SE(3) 매니폴드에서 작동시키는 것을 정의한다.
se(3)에서 Log/Exp를 이용해 H0를 항등 행렬로 방향을 매핑하는 보간 기반 확산 단계를 사용하여 Ht를 얻는다.
확산 단계에서 se(3) 공간에 노이즈를 주입하고 다시 SE(3)로 매핑한다.
등록에 특화된 변분 하한을 도출하고 노이즈 제거 네트워크를 학습시켜 대리 등록 출력을 예측하도록 한다.
대리 등록 모델 fθ를 도입하여 SE(3)에서 노이즈 제거 평균을 매개화하고 Ht→0에 대해 L1 손실로 학습한다.
코사인 디퓨전 스케줄로 학습하고 확산/역방향 단계를 균형 있게 조절하여 실제 조건에서의 강건성을 향상시킨다.
학습된 노이즈 제거 네트워크를 이용해 HT에서 H0로 점진적으로 디노이즈링을 수행하여 추론한다.

실험 결과

연구 질문

RQ1SE(3) 확산을 효과적으로 형식화하여 6D 포즈 추정을 위한 3D 점군 등록을 처리할 수 있는가?
RQ2베이지안 기반의 등록 특화 변분 객체가 표준 회귀 손실보다 학습과 강건성을 향상시키는가?
RQ3대리 심층 등록 모델을 확산 프레임워크에 통합하여 기존 등록 아키텍처를 활용할 수 있는가?
RQ4노이즈와 가려짐이 있는 실제 데이터셋에서 확산 기반 등록이 전통적 방법에 비해 어떤 성능을 보이는가?
RQ5포즈 추정 정확도와 속도에 대한 확산 단계 및 추론 전략의 영향은 무엇인가?

주요 결과

모델	TUD-L 5°	TUD-L 10°	TUD-L 1 cm	TUD-L 2 cm	LINEMOD 5°	LINEMOD 10°	LINEMOD 1 cm	LINEMOD 2 cm	Occluded-LINEMOD 5°	Occluded-LINEMOD 10°	Occluded-LINEMOD 1 cm	Occluded-LINEMOD 2 cm
ICP	0.02	0.02	0.01	0.14	0.00	0.01	0.04	0.27	0.01	0.01	0.07	0.36
FGR	0.00	0.01	0.04	0.25	0.00	0.00	0.05	0.31	0.00	0.00	0.08	0.43
TEASER	0.13	0.17	0.03	0.22	0.01	0.03	0.03	0.21	0.01	0.02	0.04	0.26
S4PCS	0.30	0.50	0.05	0.40	0.02	0.09	0.04	0.31	0.01	0.03	0.06	0.31
IDAM	0.03	0.05	0.02	0.08	0.00	0.01	0.03	0.16	0.00	0.02	0.07	0.26
FMR	0.02	0.09	0.02	0.06	0.00	0.01	0.07	0.17	0.00	0.00	0.09	0.18
RGM	0.00	0.00	0.02	0.03	0.00	0.00	0.07	0.15	0.00	0.00	0.09	0.22
RIENet	0.00	0.00	0.06	0.11	–	–	–	–	–	–	–	–
MN-IDAM	0.36	0.46	0.23	0.47	0.01	0.07	0.13	0.38	0.02	0.08	0.15	0.44
MN-DCP	0.70	0.81	0.71	0.86	0.10	0.27	0.26	0.60	0.07	0.19	0.24	0.57
DCP	0.23	0.62	0.04	0.26	0.06	0.22	0.11	0.27	0.03	0.12	0.11	0.27
Diff-DCP	0.65	0.85	0.73	0.94	0.22	0.51	0.65	0.82	0.10	0.29	0.38	0.57
RPMNet	0.73	0.97	0.89	0.94	0.05	0.18	0.22	0.45	0.03	0.13	0.22	0.40
Diff-RPMNet	0.90	0.98	0.98	0.99	0.18	0.47	0.51	0.72	0.12	0.29	0.36	0.52

확산 기반 등록(Diff-DCP, Diff-RPMNet)이 기준선보다 실제 데이터에서 더 높은 정확도를 달성한다.
Diff-RPMNet은 TUD-L, LINEMOD, Occluded-LINEMOD에서 회전 및 평가지 기준에 걸쳐 가장 높은 등록 정확도를 보인다.
제안된 SE(3) 확산 프레임워크는 노이즈와 가려짐에 대한 강건성을 향상시키며, 다양한 포즈 가설을 생성하고 Bayesian 후방을 통해 역 업데이트를 안내한다.
대리 등록 모델을 대입하여 노이즈 제거 평균을 매개화할 수 있어 여러 심층 등록 네트워크와의 호환성을 가능하게 한다.
등록에 특화된 변분 하한으로 학습하면 SE(3) 변환에 대한 노이즈 제거 네트워크를 효과적으로 최적화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.